关于从航空公司大数据中得出哪些模式/分析的建议

数据挖掘 apache-hadoop 地图减少
2022-02-23 18:36:27

最近开始学习Hadoop,发现这个数据集http://stat-computing.org/dataexpo/2009/the-data.html - (2009 data),

我想要一些建议,比如我可以在 Hadoop MapReduce 中执行哪种类型的模式或分析,我只需要一些东西来开始,如果有人有更好的数据集链接可以用来学习,请在这里帮助我。

属性如下:

1   Year    1987-2008
2   Month   1-12
3   DayofMonth  1-31
4   DayOfWeek   1 (Monday) - 7 (Sunday)
5   DepTime actual departure time (local, hhmm)
6   CRSDepTime  scheduled departure time (local, hhmm)
7   ArrTime actual arrival time (local, hhmm)
8   CRSArrTime  scheduled arrival time (local, hhmm)
9   UniqueCarrier   unique carrier code
10  FlightNum   flight number
11  TailNum plane tail number
12  ActualElapsedTime   in minutes
13  CRSElapsedTime  in minutes
14  AirTime in minutes
15  ArrDelay    arrival delay, in minutes
16  DepDelay    departure delay, in minutes
17  Origin  origin IATA airport code
18  Dest    destination IATA airport code
19  Distance    in miles
20  TaxiIn  taxi in time, in minutes
21  TaxiOut taxi out time in minutes
22  Cancelled   was the flight cancelled?
23  CancellationCode    reason for cancellation (A = carrier, B = weather, C     = NAS, D = security)
24  Diverted    1 = yes, 0 = no
25  CarrierDelay    in minutes
26  WeatherDelay    in minutes
27  NASDelay    in minutes
28  SecurityDelay   in minutes
29  LateAircraftDelay   in minutes

谢谢

1个回答

这里确实没有错误的答案,但我建议预测航班取消(#22)和/或延误(25-29),因为这是我经常看到这个数据集被使用的方式。如果您发现自己飞往或离开违规最严重的机场/航空公司之一,它也可能对您具有实际意义。

我不确定你是否有选择(也许你的雇主需要它),但不要使用 Map Reduce——学习/维护非常困难,速度很慢,而且它已经过时了。使用 Spark 的 ML 库(http://spark.apache.org/docs/latest/mllib-guide.html)之类的东西。它更容易使用并且更流行。