数据集描述
数据集来源于中文糖尿病领域权威期刊,数据包括基础研究、临床研究、药物使用、临床病例、诊治方法等多个方面,时间跨度达到7年,涵盖了近年来糖尿病领域最广泛的研究内容和热点。数据集的标注者都具有医学背景。依托于该数据集,包括医生、科研人员、企业开发者就能开展用于临床诊断的知识库,知识图谱,辅助诊断等产品开发,进一步探索研究糖尿病的奥秘。
此数据集旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱。
数据说明
数据集中共两种类型的文档,txt和ann文件。其中:
一.txt文件为原始文档,举个栗子:
“糖尿病周围神经病诊断和治疗共识
中华医学会神经病学分会肌电图与临床神经电生理学组
中华医学会神经病学分会神经肌肉病学组
糖尿病周围神经病(diabetic peripheral neuropathy,DPN)
是糖尿病的常见并发症,临床表现包括……”
二.ann文件为标注信息,数据对应列名如下图:
| 标注实体id | 实体类别 | 起始位置 | 终止位置 | 实体对应的文档中的词 | ||
|---|---|---|---|---|---|---|
| T1 | Disease | 108 | 113 | 2型糖尿病 | ||
| … | … | … | … | … |
实体标注格式,分三列,以tab分割:
a)第一列为实体id,以字符T开始,后接数字,如“T16”,该id在同个文件中唯一;
b)第二列为实体的位置坐标以及类别,由三部分组成,以空格分割;
- 第一部分为实体类别,如“Disease”;
- 第二部分为实体起始位置,如“100”;
- 第三部分为实体终止位置,如“110”。对于存在换行现象的实体,则以分号分割实体在两行的位置,如“Disease 18 20;21 25”表示该实体起始位置为18到25,在20的位置换行。
c)第三列为实体对应的文字,如“I型糖尿病”。

资源下载
下载价格9.9 元
VIP免费
立即购买
