我可以用我的数据集做什么样的研究?

数据挖掘 可视化 数据
2022-02-26 19:20:26

我有一个包含 200K 广告的数据(在阿拉伯联合酋长国或阿联酋出售和出租物业)。这是一个示例:

190459 obs. of  29 variables:
 $ id                  : chr  "tnydu.biz/DafdVO" "tnydu.biz/DafloP" "tnydu.biz/Dafmvy" "tnydu.biz/Dafuy5" ...
 $ AdType              : chr  "sale" "sale" "sale" "sale" ...
 $ AgencyFees          : num  NA NA NA NA NA NA NA NA NA NA ...
 $ Amenities           : chr  "CentralA/C&Heating,SharedPool,SharedGym,Security,BuiltinWardrobes,ViewofWater,ViewofLandmark" "Study,CentralA/C&Heating,Balcony,Security,MaidService,CoveredParking,BuiltinWardrobes,Walk-inCloset,BuiltinKitchenAppliances,Vi"| __truncated__ "CentralA/C&Heating,SharedSpa,Security,ConciergeService,MaidService,CoveredParking,BuiltinWardrobes,Walk-inCloset,BuiltinKitchen"| __truncated__ "CentralA/C&Heating,Balcony,Security,CoveredParking,BuiltinWardrobes,BuiltinKitchenAppliances,ViewofLandmark" ...
 $ AnnualCommunityFee  : chr  "9000" NA NA NA ...
 $ AreaDescription     : chr  "\r\n            \r\n                \r\n                    1.9 km from Najmat Reem Marina\r\n                \r\n            \"| __truncated__ "\r\n            \r\n                \r\n                    0.3 km from The Dubai Mall\r\n                \r\n            \r\n "| __truncated__ "\r\n            \r\n                \r\n            \r\n        " "\r\n            \r\n                \r\n                    0.7 km from The Dubai Mall\r\n                \r\n            \r\n "| __truncated__ ...
 $ Bathrooms           : num  1 NA NA NA 5 3 NA NA 3 3 ...
 $ Bedrooms            : num  0 3 0 1 3 2 2 2 3 3 ...
 $ Building            : chr  "HydraAvenueTowers" "BurjVista1" "TheAddressDubaiMall" "TheAddressDowntown" ...
 $ City                : chr  "AbuDhabi" "Dubai" "Dubai" "Dubai" ...
 $ PublishDate         : POSIXct, format: "2015-10-30" "2015-11-11" "2015-11-13" "2015-11-09" ...
 $ DealerCode          : chr  "599942" "604296" "604296" "604296" ...
 $ DealerName          : chr  "STARWOOD PROPERTIES BROKER" "BLUE PALACE REAL ESTATE BROKERS" "BLUE PALACE REAL ESTATE BROKERS" "BLUE PALACE REAL ESTATE BROKERS" ...
 $ Developer           : chr  "HydraProperties" "EMAAR" "EMAAR" NA ...
 $ Furnished           : chr  NA NA NA NA ...
 $ ListedBy            : chr  "Agent" "Agent" "Agent" "Agent" ...
 $ Location            : chr  "City of Lights, Tamouh Marina Square" "Downtown Dubai, Dubai" "Downtown, Cairo" "Downtown Dubai, Dubai" ...
 $ LocationGPSLatitude : num  24.5 25.2 30 25.2 25.1 ...
 $ LocationGPSLongitude: num  54.4 55.3 31.3 55.3 55.1 ...
 $ Price               : num  900000 3822888 2150000 3200000 5500000 ...
 $ PriceSqFt           : num  1129 2185 3909 3422 2431 ...
 $ PropertyReference   : chr  NA "BP9801" "DT-K20" " BP8958" ...
 $ PropertyType        : chr  "apartment" "apartment" "apartment" "apartment" ...
 $ ReadyBy             : POSIXct, format: "2015-04-30" NA NA NA ...
 $ RentIsPaid          : chr  NA NA NA NA ...
 $ ShortLink           : chr  "tnydu.biz/DafdVO" "tnydu.biz/DafloP" "tnydu.biz/Dafmvy" "tnydu.biz/Dafuy5" ...
 $ Size                : num  797 1749 550 935 2262 ...
 $ TotalClosingFee     : chr  NA NA NA NA ...
 $ VirtualView         : chr  NA NA NA NA ...

我正在寻求帮助,以确定我可以使用这些数据回答什么样的问题。例如,1. 迪拜不同地区的一居室公寓每年平均租金是多少?2、城市地图上公寓和别墅的物资是如何分配的?3. 浴室的数量是否会影响销售/租金价格?4. 从公寓成本和租金收入中获取更多利润的最佳投资地点在哪里?

我已经完成了其中的一些(绘制了迪拜工作室平均价格的地图,单位为千迪拉姆/年,1 美元 = 3.66 迪拉姆):

在此处输入图像描述

根据您的经验,我还能问什么其他问题?在这个数据集中我必须注意什么?如果有人想检查它,我可以分享我的数据集(它是一个 12mb 的 zip)。

4个回答

有几件事可以做,但是正如@Dawny33 提到的,从你想要解决的问题开始。

例如,如果我试图解决:哪些因素会影响价格以及如何影响价格?

一个简单的分析可以是运行一个线性回归模型 ( lm),将其他模型PriceSqFt作为因变量,将其他模型作为回归变量。然后,您可以选择前 10 名或前 15 名或您喜欢的人数,并查看他们的关系。

这可能会帮助您回答一些简单的问题,例如:

How do prices vary by dealers, by property type, by location, by size?
Does move in ready date make a difference to rent / prices?
Do specific kind of properties have later than usual ready dates?
Is there a negative or positive correlation between size and pricesqft?
Are certain dealers over or under priced compared to other identical
properties and location?  

您还可以使用或其他函数创建图pairs,以查看成对关系以进行初始分析并在您所看到的基础上进行构建。

如果您真的想更上一层楼,您可以创建一个预测模型来根据选择的参数预测价格。

特征选择是一个很好的起点。U 可以使用统计或信息论方法(例如方差、熵等)来选择影响数据的k 个最佳特征。

集群在这里似乎也很有吸引力。根据不同的属性对房屋进行聚类以揭示隐藏的模式,例如地理位置和价格之间的关系作为一个简单的关系。

您还可以构建一个模型,从中可以根据房屋的特征预测房屋的价格。

地理加权回归将是查看哪些因素与价格相关以及该模型如何随空间变化的一种方法。

谨慎使用它还可以帮助预测中间位置的预期价格,即数据点是否适当分布。

GWR 在例如 R 和 ArcGIS 中可用

您已经对潜在问题有了想法。要获得更多信息,您可以尝试测试不同类型的可视化,并检查是否出现模式。

为了您的灵感,这个机器学习的视觉介绍从旧金山或纽约的家庭的 7 维数据集开始,并构建不同类型的出色图形和预测。