关于数据集

📌 简介

该数据集是对新生儿健康监测的 合成但逼真的模拟
。 它专为医疗保健分析、机器学习和应用程序开发而设计,尤其适用于新生儿健康风险的早期检测

该数据集模拟了新生儿的日常健康记录,包括生命体征、生长参数、喂养模式和风险分类标签。

🎯 动机

新生儿健康是医疗保健领域最敏感的领域之一。
监测新生儿有助于及早 发现黄疸、感染、脱水和呼吸系统疾病
。 由于真实的新生儿数据是私密的且难以访问,该数据集为研究人员、学生和开发者提供了一个安全且实用的替代方案,可用于构建和测试:

  • 📊探索性数据分析(EDA)
  • 🤖机器学习分类模型
  • 📱医疗保健监测应用程序(Streamlit、Flask、Django 等)

– 🏥预测医疗保健系统

数据集概述

  • 婴儿总数:100
  • 监测期:每个婴儿30天
  • 总记录数:3,000
  • 文件格式:CSV

合成数据:使用 Python ( pandasnumpyfaker) 按照医学规则 生成

📑 列描述

🔹 人口统计

  • baby_id → 每个婴儿的唯一标识符(例如B001)。
  • 名字→随机生成的婴儿名字(为了真实)。
  • 性别→男/女。
  • gestational_age_weeks → 出生时的孕周(正常:37-42 周)。
  • birth_weight_kg → 出生体重(正常范围:2.5–4.5 公斤)。
  • birth_length_cm → 出生时的长度(平均:48-52 厘米)。
  • birth_head_circumference_cm → 出生时的头围(平均:33-35 厘米)。

🔹 每日监控

  • 日期→ 监测日期。
  • age_days → 婴儿出生以来的年龄(天数)。
  • weight_kg → 每日更新体重(增长趋势~25-30克/天)。
  • length_cm → 每日更新身体长度(缓慢增加)。
  • head_circumference_cm → 每日更新头围。
  • temperature_c → 体温(°C)(正常:36.5–37.5°C)。
  • heart_rate_bpm → 心率(正常:120–160 bpm)。
  • breathing_rate_bpm → 呼吸频率(正常:30-60 次/分钟)。
  • 氧饱和度→SpO₂ 水平(正常值 >95%)。

🔹 喂食和补水

  • feeding_type → 母乳喂养 / 配方奶粉喂养 / 混合喂养。
  • feeding_frequency_per_day → 每天喂食次数(正常:8-12)。
  • urine_output_count → 每天湿尿布的数量(正常:6-8+)。
  • stool_count → 每天排便次数(通常为 0-5)。

🔹 医疗检查

  • jaundice_level_mg_dl → 胆红素水平(正常<5,轻度5-12,重度>15)。
  • apgar_score → 出生时分数为 0-10(仅第 1 天)。
  • immunizations_done → 是/否(第 1 天和第 30 天接种 BCG、HepB、OPV)。
  • reflexes_normal → 新生儿反射检查(是/否)。

🔹风险分类

  • risk_level → 自动分配的健康状态:
  • ✅ 健康 → 所有生命体征正常。
  • ⚠️ 有风险 → 轻度异常(例如轻度黄疸、轻微发烧、SpO₂ 92–95%)。

– 🚨 严重→严重异常(例如,黄疸>15,SpO₂<92,HR>180,体温>39°C)。

📊 数据是如何生成的

数据集是在Python中使用以下方式生成的:

  • numpypandas用于数据模拟。
  • faker用于生成婴儿的名字和日期。

-针对生命体征、生长、黄疸进展和风险分类的 医学上现实规则。

💡 潜在应用

  • 机器学习:训练分类模型来预测新生儿的健康风险。
  • Streamlit/Dash 应用程序:构建实时新生儿监控仪表板。
  • 医疗保健研究:研究生长和生命体征模式。

教育:在健康数据集上练习 EDA、可视化和预测模型。

资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?