20 万患者 EHR 数据集

关于数据集

多语言合成 EHR 数据集包

三个大型、高质量、完全合成的电子健康记录 (EHR) 数据集：

适合：

每个数据集：

关于此文件建议编辑

概述：
该数据集呈现了统一的多语言合成电子健康记录 (EHR) 集合，旨在用于研究、机器学习、数据科学和跨语言基准测试。每个文件代表来自三个不同国家/地区和语言的大型数据集的 10% 演示样本：

英语（英国）

西班牙语（墨西哥）

俄语（俄罗斯/独联体）

每个文件包含 20,000 条合成患者记录，具有 26 列的完全标准化结构，可直接比较、分析或连接以进行国际或跨语言研究。

数据集文件
demo_english.csv — 20,000 行，英语，合成英国患者

demo_spanish.csv — 20,000 行，西班牙语，合成墨西哥患者

demo_russian.csv — 20,000 行，俄语，合成俄罗斯/独联体患者

所有文件都使用相同的列名（英文）和顺序。

数据来源和方法
所有记录都是综合的：生成和协调以保护隐私，支持开放数据共享，并实现现实研究而不会对真实患者造成风险。

原始数据模拟了英国、墨西哥和俄罗斯/独联体。

列和编码协调一致，以实现跨语言可用性。

该演示占完整数据集的 10%（请参阅项目以了解潜在的完整版本）。

使用思路
跨语言机器学习实验

基准数据整理和协调工具

探索性数据分析与可视化实践

医疗数据科学的教育演示

测试多国医疗保健分析管道

资源下载

下载价格9.9 元

VIP免费