Download - Real price predictor
REAL PRICE PREDICTORTOC PROJECT
WHO ARE WE?
Students from NCKU IIM
WHAT‘S THIS?
Use the real price data from DataGarage
to generate regression function.
WHAT CAN WE DO WITH THIS
1. Knowing market quotation of real estate
2. Predict price of real estate
WHAT CAN WE DO WITH THIS
1. Knowing market quotation of real estate
2. Predict price of real estate
For example,
predict_price( 台北市 , 文山區 , other necessary information…) = 1000000
WHY CHOOSING THIS PROBLEM?
We’ve discussed with student in related department.
WHY CHOOSING THIS PROBLEM?
We’ve discussed with student in related department.
If they concern problem like this,
WHY CHOOSING THIS PROBLEM?
We’ve discussed with student in related department.
If they concern problem like this,
it means we’re dealing with data that the real world really care about!!!
WHY CHOOSING THIS PROBLEM?
We’ve discussed with student in related department.
If they concern problem like this,
it means we’re dealing with data that the real world really care about!!!
or… at least for those real estate appraisers.
HOW DO WE ACHIEVE IT?
HOW DO WE ACHIEVE IT?
Statistics Programming+
HOW DO WE ACHIEVE IT?
1. Parse the real price data
2. Classify the data
3. Generate regression for each region
4. Predict the price
HOW DO WE ACHIEVE IT?
It sounds easy, isn’t’ it?
HOW DO WE ACHIEVE IT?
The devil is in the details!!!
PARSE THE REAL PRICE DATA
PARSE THE REAL PRICE DATA
PARSE THE REAL PRICE DATA
PARSE THE REAL PRICE DATA
We don’t use method like this, instead….
PARSE THE REAL PRICE DATA
PARSE THE REAL PRICE DATA
PARSE THE REAL PRICE DATA
If the tools have already existed,
why should we write it ourselves?
PARSE THE REAL PRICE DATA
This API only deal with URL and parse filtered data instead of raw data
PARSE THE REAL PRICE DATA
Take hw3 for example,
if we want to find 土地區段位置或建物區門牌 contain 文山區
PARSE THE REAL PRICE DATA
Take hw3 for example,
http://www.datagarage.io/api/5365dee31bc6e9d9463a0057
if we want to find 土地區段位置或建物區門牌 contain 文山區
PARSE THE REAL PRICE DATA
Take hw3 for example,
http://www.datagarage.io/api/5365dee31bc6e9d9463a0057?selector= 土地區段位置或建物區門牌 =/ 文山區 /
if we want to find 土地區段位置或建物區門牌 contain 文山區
PARSE THE REAL PRICE DATA
Take hw3 for example,
http://www.datagarage.io/api/5365dee31bc6e9d9463a0057?selector= 土地區段位置或建物區門牌 =/ 文山區 /
if we want to find 土地區段位置或建物區門牌 contain 文山區
It’s just far more easier than filtered data ourselves, isn’t it?
Parsing data from this url and we get what we want!
PARSE THE REAL PRICE DATA
So we only parse necessary data from DataGarage.
By doing so, we can save plenty of processing time.
PARSE THE REAL PRICE DATA
Although, we say that we use this tool…
PARSE THE REAL PRICE DATA
the fact is that…
Although, we say that we use this tool…
PARSE THE REAL PRICE DATA
the fact is that…
we wrote it!!!
Although, we say that we use this tool…
PARSE THE REAL PRICE DATA
PARSE THE REAL PRICE DATA
The author of data garage merge our pull request!!!
CLASSIFY THE DATA
CLASSIFY THE DATA
Well… It’s kind of hard to explain…
CLASSIFY THE DATA
Well… It’s kind of hard to explain…
Let example tells the story
CLASSIFY THE DATA
土地區段位置或建物區門牌 : 桃園縣楊梅市金山街 298 巷 31~60 號 , 鄉鎮市區 : 楊梅市 , 交易年月 : 10302
土地區段位置或建物區門牌 : 桃園縣楊梅市金山街 298 巷 31~60 號 , 鄉鎮市區 : 楊梅市 , 交易年月 : 10302
土地區段位置或建物區門牌 : 臺中市太平區建成街 128 巷 1~30 號 , 鄉鎮市區 : 太平區 , 交易年月 : 10302
土地區段位置或建物區門牌 : 桃園縣八德市銀和街 71 巷 1~30 號 , 鄉鎮市區 : 八德市 , 交易年月 : 10302
土地區段位置或建物區門牌 : 臺中市西屯區臺灣大道四段 1261~1290 號 , 鄉鎮市區 : 西屯區 , 交易年月 : 10301
土地區段位置或建物區門牌 : 桃園縣楊梅市金山街 298 巷 31~60 號 , 鄉鎮市區 : 楊梅市 , 交易年月 : 10302
This is our raw data
CLASSIFY THE DATA
桃園縣
台中市
楊梅市
八德市
西屯區太平區
土地…門牌 : 桃園縣楊梅市金山街 298 巷 31~60 號 , 鄉鎮市區 : 楊梅市 , 交易年月 : 10302
土地…門牌 : 桃園縣楊梅市金山街 298 巷 31~60 號 , 鄉鎮市區 : 楊梅市 , 交易年月 : 10302
土地…門牌 : 桃園縣楊梅市金山街 298 巷 31~60 號 , 鄉鎮市區 : 楊梅市 , 交易年月 : 10302
土地…門牌 : 桃園縣八德市銀和街 71 巷 1~30 號 , 鄉鎮市區 : 八德市 , 交易年月 : 10302
土地…門牌 : 臺中市太平區建成街 128 巷 1~30 號 , 鄉鎮市區 : 太平區 , 交易年月 : 10302
土地…門牌 : 臺中市西屯區臺灣大道四段 1261~1290 號 , 鄉鎮市區 : 西屯區 , 交易年月 : 10301
CLASSIFY THE DATA
桃園縣
台中市
楊梅市
八德市
西屯區太平區
土地…門牌 : 桃園縣楊梅市金山街 298 巷 31~60 號 , 鄉鎮市區 : 楊梅市 , 交易年月 : 10302
土地…門牌 : 桃園縣楊梅市金山街 298 巷 31~60 號 , 鄉鎮市區 : 楊梅市 , 交易年月 : 10302
土地…門牌 : 桃園縣楊梅市金山街 298 巷 31~60 號 , 鄉鎮市區 : 楊梅市 , 交易年月 : 10302
土地…門牌 : 桃園縣八德市銀和街 71 巷 1~30 號 , 鄉鎮市區 : 八德市 , 交易年月 : 10302
土地…門牌 : 臺中市太平區建成街 128 巷 1~30 號 , 鄉鎮市區 : 太平區 , 交易年月 : 10302
土地…門牌 : 臺中市西屯區臺灣大道四段 1261~1290 號 , 鄉鎮市區 : 西屯區 , 交易年月 : 10301
classifiedData[‘ 桃園縣 ][‘’ 楊梅市 ][0] = { 土地…門牌 : 桃園縣楊梅市金山街 298 巷31~60 號 ,
鄉鎮市區 : 楊梅市 ,
交易年月 : 10302 }
CLASSIFY THE DATA
How?
CLASSIFY THE DATA
Regular expression!!!
How?
GENERATE REGRESSION FOR EACH REGION
GENERATE REGRESSION FOR EACH REGION
What is regression?
GENERATE REGRESSION FOR EACH REGION
Statistical approach to forecasting change in a dependent variable (sales revenue, for example) on the basis of change in one or more independent variables (population and income, for example).
Read more: http://www.businessdictionary.com/definition/regression-analysis-RA.html#ixzz36J8AoNeq
According to definition in businessdictionary.com,regression is
What is regression?
GENERATE REGRESSION FOR EACH REGION
This is a regression model with two variables
GENERATE REGRESSION FOR EACH REGION
But…
GENERATE REGRESSION FOR EACH REGION
But…
In this problem, we must consider more than two variables
GENERATE REGRESSION FOR EACH REGION
But…
In this problem, we must consider more than two variables
These are the variable we take into account土地區段位置或建物區門牌 鄉鎮市區總價元 有無管理組織 建物型態土地移轉總面積平方公尺 車位移轉總面積平方公尺建物移轉總面積平方公尺 建物型態建築完成年月 交易年月
GENERATE REGRESSION FOR EACH REGION
Yi ( 各區段 總價元 ) =
This is our model
GENERATE REGRESSION FOR EACH REGION
Yi ( 各區段 總價元 ) =
X1i ( 房物物價指數 ) + X2i ( 有管理員 :1, 沒管理員 :0) + X3i ( 土地移轉面積 ) + X4i( 車位移轉面積 ) + X5i( 建物移轉面積 ) + X6i( 房齡 ) + X7i( 住宅大樓 , 1 為是 , 0 為否 ) + X8i( 套房 ) + X9i( 華夏 ) + X10i( 公寓 ) + x11i( 透天厝 ) + X12i( 店鋪 )
This is our model
GENERATE REGRESSION FOR EACH REGION
Yi ( 各區段 總價元 ) =
X1i ( 房物物價指數 ) + X2i ( 有管理員 :1, 沒管理員 :0) + X3i ( 土地移轉面積 ) + X4i( 車位移轉面積 ) + X5i( 建物移轉面積 ) + X6i( 房齡 ) + X7i( 住宅大樓 , 1 為是 , 0 為否 ) + X8i( 套房 ) + X9i( 華夏 ) + X10i( 公寓 ) + x11i( 透天厝 ) + X12i( 店鋪 )
This is our model
There are 12 variables…
GENERATE REGRESSION FOR EACH REGION
Thanks to the great libraries for statistics in Python
GENERATE REGRESSION FOR EACH REGION
PREDICT THE PRICE
PREDICT THE PRICE
We use the example on previous page
PREDICT THE PRICE
If the user input an address in 台中市西屯區 ,
then we’ll get
this regression
PREDICT THE PRICE
If the user input an address in 台中市西屯區 ,
then we’ll get
this regression
PREDICT THE PRICE
After the user input these data有無管理組織 建物型態土地移轉總面積平方公尺 車位移轉總面積平方公尺 建物移轉總面積平方公尺屋齡 交易年月
PREDICT THE PRICE
After the user input these data有無管理組織 建物型態土地移轉總面積平方公尺 車位移轉總面積平方公尺 建物移轉總面積平方公尺屋齡 交易年月
we’ll quantize these data.
x1 = … x2 = … x3 = … and so on.
PREDICT THE PRICE
Substitue thoes vaule into regression likey = -5 + 2*x1 - 2*x2 + 1.8*x3 ...
PREDICT THE PRICE
Substitue thoes vaule into regression likey = -5 + 2*x1 - 2*x2 + 1.8*x3 ...
Then we’ll get the predicted price
HOW TO USE
PREREQUISITES
1. Python 3
2. Numpy
3. statsmodels
PREREQUISITES
1. Python 3
2. Numpy
3. statsmodels
All the instructions are on github.
PREREQUISITES
Wait a moment…
PREREQUISITES
Where is this repo???
Wait a moment…
PREREQUISITES
https://github.com/WemyJu/TOC_proj/
HOW TO USE
Regression Generator
Price predictor
You can generate regression information and find the result in folder regression_resutlt.
Enter the value as interactive shell ask, and you'll get the predicted price.
If the regression functions have not been generated, it will automatically generate through default data.
FOR FURTHER INFORMATION
https://github.com/WemyJu/TOC_proj
Q & A