2024 年航班延误:700 万行以上数据,用于机器学习、EDA 和洞察
关于数据集
航班延误数据集 — 2024
描述
该数据集包含2024 年国内航班的详细飞行性能和延误信息,这些信息由每月的 BTS TranStats 文件合并而成,并已整理成一个数据集。它包含超过700 万行和35 列的数据,提供有关预定和实际航班时间、延误、取消、改道以及机场间距离的全面信息。该数据集适用于探索性数据分析 (EDA)、延误预测等机器学习任务、时间序列分析以及航空公司/机场性能研究。
从BTS TranStats 准点率数据库下载了 2024 年 1 月至 12 月的月度 CSV 文件,并选择了 35 个相关列。使用 Pandas 将月度文件合并为一个数据集,清理步骤包括将列名标准化为蛇形命名法(例如,flight_date
、dep_delay
),转换flight_date
为 ISO 格式(YYYY-MM-DD
),将cancelled
和转换diverted
为二进制指示符(0/1),并将与延误相关的列(carrier_delay
、weather_delay
、nas_delay
、security_delay
、late_aircraft_delay
)中的缺失值填充为 0,同时保留原始数据中的所有其他值。
资料来源:BTS TranStats
文件描述
flight_data_2024.csv
— 完整清理的数据集(约 700 万行,35 列)flight_data_2024_sample.csv
— 样本数据集(10,000 行)flight_data_2024_data_dictionary.csv
— 列名、数据类型、空值百分比和示例值README.md
— 数据集概述和使用说明LICENSE.txt
— CC0 许可证dataset-metadata.json
— 数据集的 Kaggle 元数据
列描述
列名 | 描述 |
---|---|
year | 飞行年份 |
month | 飞行月份(1-12) |
day_of_month | 月份中的某天 |
day_of_week | 星期几(1=星期一…7=星期日) |
fl_date | 航班日期(YYYY-MM-DD) |
op_unique_carrier | 唯一承运人代码 |
op_carrier_fl_num | 报告航空公司的航班号 |
origin | 出发机场代码 |
origin_city_name | 原籍城市名称 |
origin_state_nm | 原产州名称 |
dest | 目的地机场代码 |
dest_city_name | 目的地城市名称 |
dest_state_nm | 目的地州名 |
crs_dep_time | 预定出发时间(当地时间,时分) |
dep_time | 实际出发时间(当地时间,时分) |
dep_delay | 出发延误时间(分钟)(提前则为负数) |
taxi_out | 滑行时间(分钟) |
wheels_off | 起降时间(当地时间,时分) |
wheels_on | 起降时间(当地时间,时分) |
taxi_in | 出租车到站时间(分钟) |
crs_arr_time | 预计到达时间(当地时间,时分) |
arr_time | 实际到达时间(当地时间,时分) |
arr_delay | 到达延迟时间(分钟)(提前则为负数) |
cancelled | 取消航班指示(0=否,1=是) |
cancellation_code | 取消原因(如取消) |
diverted | 改道航班指示器(0=否,1=是) |
crs_elapsed_time | 预计耗时(分钟) |
actual_elapsed_time | 实际经过的时间(分钟) |
air_time | 飞行时间(分钟) |
distance | 出发地和目的地之间的距离(英里) |
carrier_delay | 与承运商相关的延迟(分钟) |
weather_delay | 天气相关延误(分钟) |
nas_delay | 国家航空系统延误几分钟 |
security_delay | 安全延迟(分钟) |
late_aircraft_delay | 晚点航班延误几分钟 |

资源下载
下载价格9.9 元
VIP免费
立即购买