关于数据集

肺癌风险数据集

概述

该数据集包含 50,000 份患者资料,用于肺癌风险分析和机器学习应用。该数据集干净、经过预处理,可立即用于分类任务、统计分析和数据可视化。

  • 行数:50,000
  • 列数:11
  • 文件preprocessed_lung_cancer_dataset.csv
  • 许可证:CC0:公共领域

数据集描述

该数据集包含基于已知肺癌风险因素(例如吸烟史、环境暴露和慢性肺部疾病)的患者资料。所有数据均为合成数据,旨在反映真实的风险因素分布,同时保护患者隐私。

特征

柱子类型描述值/范围
患者 ID整数唯一患者标识符100000-149999
年龄整数患者年龄(岁)18-100
性别细绳患者性别“男”、“女”
包装年数漂浮吸烟暴露(年数×每天包数)0-100
氡暴露细绳住宅氡暴露水平“低”、“中”、“高”
石棉暴露细绳职业石棉暴露史“是”,“否”
二手烟暴露细绳被动吸烟“是”,“否”
慢性阻塞性肺病诊断细绳慢性阻塞性肺疾病诊断“是”,“否”
酒精消费细绳酒精消费模式“无”、“中等”、“严重”
家族史细绳肺癌家族史“是”,“否”
肺癌细绳目标变量:肺癌诊断“是”,“否”

数据质量

  • 完整:没有缺失值或重复值
  • 清洁:所有值都在实际范围内
  • 平衡特征:风险因素的现实分布
  • 目标分布:约 25% 的阳性病例,反映现实世界的肺癌患病率

用例

  • 二元分类建模
  • 危险因素相关性分析
  • 数据可视化和探索性分析
  • 机器学习管道开发
  • 统计假设检验
资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?