关于数据集
🛫 飞机失事数据 (1919–2025) – 清理与统一
📌 概览
该数据集是一个全面且手动整理的数据集,涵盖了 1919 年至 2025 年期间的全球航空事故和事件,数据来源于五个权威平台。它将历史和现代记录整合到一个单一、干净且易于分析的 .csv 文件中,非常适合数据科学、机器学习和航空安全研究。
📂 所用来源
原始数据来自以下来源:
- https://asn.flightsafety.org/database/
- https://www.kaggle.com/datasets/saurograndi/airplane-crashes-since-1908
- https://www.panish.law/aviation_accident_statistics.html
- https://en.wikipedia.org/wiki/Aviation_accidents_and_incidents
- + 另外 2 个手动抓取的来源
每个来源都有其独特的属性、结构和格式。我手动提取、清理、去重并统一了数据集,以生成这个高质量的最终版本。
🧹 数据清理和管理
数据集准备包括:
🧭 跨多种格式的日期标准化(包括解析旧的历史日期)
🔍 从重叠源中删除重复项
🛬 位置规范化(城市、国家、坐标(如果可能))
📉 死亡/受伤人数统一列成一致的栏目
🧑✈️ 飞行目的分类(商业、军事、训练等)
💥 细化原因/描述以提高文本分析的可用性
🏷️根据事件严重程度、飞机类型等进行标记和分类。
📊 cleaned_data.csv 中的列(这是所有数据库的组合,可以继续使用)
下面是数据集的典型结构:
列名 描述
日期:事件日期 地点
:坠机城市/地区/国家 运营商
:航空公司或飞机运营商
航班号:航班号(如有)
飞机类型:飞机类型/型号
注册:飞机注册号
死亡人数:死亡总人数
机上:机上总人数
地面死亡人数:地面死亡人数(如有)
摘要:简短描述或可能原因
来源:收集数据点的原始来源
坠机类型:分类标签:例如,空中相撞、发动机故障、飞行员失误等
年份:提取年份(用于趋势分析)
注意:并非所有列都存在于每个原始文件中;在可能的情况下,缺失的数据已被适当填充或标记。
🔍 为什么这个数据集是独一无二的
📅超过一个世纪的航空数据(1919-2025)
🔄 合并自五个信誉良好的来源
🧼 彻底的手动清洁和验证
📚 适用于:
航空安全分析
时间序列预测
事故摘要的自然语言处理(NLP)
机器学习(例如预测事故原因或死亡人数)
📌 建议用例
✈️航空风险预测模型
📉 全球航空安全趋势分析
🗺️ 事故热点地理可视化
🤖 崩溃摘要的 NLP 分类
📊 在 Power BI 或 Tableau 中创建仪表板
📁 文件包含
cleaned_data.csv – 具有统一模式的最终清理数据集
