关于数据集

🛫 飞机失事数据 (1919–2025) – 清理与统一
📌 概览
该数据集是一个全面且手动整理的数据集,涵盖了 1919 年至 2025 年期间的全球航空事故和事件,数据来源于五个权威平台。它将历史和现代记录整合到一个单一、干净且易于分析的 .csv 文件中,非常适合数据科学、机器学习和航空安全研究。

📂 所用来源
原始数据来自以下来源:

每个来源都有其独特的属性、结构和格式。我手动提取、清理、去重并统一了数据集,以生成这个高质量的最终版本。

🧹 数据清理和管理
数据集准备包括:

🧭 跨多种格式的日期标准化(包括解析旧的历史日期)

🔍 从重叠源中删除重复项

🛬 位置规范化(城市、国家、坐标(如果可能))

📉 死亡/受伤人数统一列成一致的栏目

🧑‍✈️ 飞行目的分类(商业、军事、训练等)

💥 细化原因/描述以提高文本分析的可用性

🏷️根据事件严重程度、飞机类型等进行标记和分类。

📊 cleaned_data.csv 中的列(这是所有数据库的组合,可以继续使用)
下面是数据集的典型结构:

列名 描述
日期:事件日期 地点
:坠机城市/地区/国家 运营商
:航空公司或飞机运营商
航班号:航班号(如有)
飞机类型:飞机类型/型号
注册:飞机注册号
死亡人数:死亡总人数
机上:机上总人数
地面死亡人数:地面死亡人数(如有)
摘要:简短描述或可能原因
来源:收集数据点的原始来源
坠机类型:分类标签:例如,空中相撞、发动机故障、飞行员失误等
年份:提取年份(用于趋势分析)

注意:并非所有列都存在于每个原始文件中;在可能的情况下,缺失的数据已被适当填充或标记。

🔍 为什么这个数据集是独一无二的
📅超过一个世纪的航空数据(1919-2025)

🔄 合并自五个信誉良好的来源

🧼 彻底的手动清洁和验证

📚 适用于:

航空安全分析

时间序列预测

事故摘要的自然语言处理(NLP)

机器学习(例如预测事故原因或死亡人数)

📌 建议用例
✈️航空风险预测模型

📉 全球航空安全趋势分析

🗺️ 事故热点地理可视化

🤖 崩溃摘要的 NLP 分类

📊 在 Power BI 或 Tableau 中创建仪表板

📁 文件包含
cleaned_data.csv – 具有统一模式的最终清理数据集

资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?