2024 年航班延误:700 万行以上数据,用于机器学习、EDA 和洞察

关于数据集

航班延误数据集 — 2024

描述

该数据集包含2024 年国内航班的详细飞行性能和延误信息,这些信息由每月的 BTS TranStats 文件合并而成,并已整理成一个数据集。它包含超过700 万行35 列的数据,提供有关预定和实际航班时间、延误、取消、改道以及机场间距离的全面信息。该数据集适用于探索性数据分析 (EDA)、延误预测等机器学习任务、时间序列分析以及航空公司/机场性能研究。

从BTS TranStats 准点率数据库下载了 2024 年 1 月至 12 月的月度 CSV 文件,并选择了 35 个相关列。使用 Pandas 将月度文件合并为一个数据集,清理步骤包括将列名标准化为蛇形命名法(例如,flight_datedep_delay),转换flight_date为 ISO 格式(YYYY-MM-DD),将cancelled和转换diverted为二进制指示符(0/1),并将与延误相关的列(carrier_delayweather_delaynas_delaysecurity_delaylate_aircraft_delay)中的缺失值填充为 0,同时保留原始数据中的所有其他值。

资料来源BTS TranStats


文件描述

  • flight_data_2024.csv— 完整清理的数据集(约 700 万行,35 列)
  • flight_data_2024_sample.csv— 样本数据集(10,000 行)
  • flight_data_2024_data_dictionary.csv— 列名、数据类型、空值百分比和示例值
  • README.md— 数据集概述和使用说明
  • LICENSE.txt— CC0 许可证
  • dataset-metadata.json— 数据集的 Kaggle 元数据

列描述

列名描述
year飞行年份
month飞行月份(1-12)
day_of_month月份中的某天
day_of_week星期几(1=星期一…7=星期日)
fl_date航班日期(YYYY-MM-DD)
op_unique_carrier唯一承运人代码
op_carrier_fl_num报告航空公司的航班号
origin出发机场代码
origin_city_name原籍城市名称
origin_state_nm原产州名称
dest目的地机场代码
dest_city_name目的地城市名称
dest_state_nm目的地州名
crs_dep_time预定出发时间(当地时间,时分)
dep_time实际出发时间(当地时间,时分)
dep_delay出发延误时间(分钟)(提前则为负数)
taxi_out滑行时间(分钟)
wheels_off起降时间(当地时间,时分)
wheels_on起降时间(当地时间,时分)
taxi_in出租车到站时间(分钟)
crs_arr_time预计到达时间(当地时间,时分)
arr_time实际到达时间(当地时间,时分)
arr_delay到达延迟时间(分钟)(提前则为负数)
cancelled取消航班指示(0=否,1=是)
cancellation_code取消原因(如取消)
diverted改道航班指示器(0=否,1=是)
crs_elapsed_time预计耗时(分钟)
actual_elapsed_time实际经过的时间(分钟)
air_time飞行时间(分钟)
distance出发地和目的地之间的距离(英里)
carrier_delay与承运商相关的延迟(分钟)
weather_delay天气相关延误(分钟)
nas_delay国家航空系统延误几分钟
security_delay安全延迟(分钟)
late_aircraft_delay晚点航班延误几分钟
资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?