关于数据集

数据集信息

该数据来自开源精神疾病 (OSMI),使用了 2014 年、2016 年、2017 年、2018 年和 2019 年的调查数据。每项调查都衡量了科技工作场所对心理健康的态度以及心理健康障碍的发生频率。

使用 Python、SQL 和 Excel 对原始数据进行清理和处理。

清洁步骤包括

  • 类似的问题被归为一类
  • 答案的值保持一致(即 1 == 1.0)
  • 修复拼写错误

内容

SQLite 数据库包含 3 个表:调查表、问题表和答案表。

调查(主键 INT SurveyID,文本描述)
问题(主键 QuestionID,文本 QuestionText)
答案(主键/外键 SurveyID,主键 UserID,主键/外键 QuestionID,文本 AnswerText)

SuveyID 只是调查年份,例如 2014、2016、2017、2018、2019。
同一个问题可以用于多个调查。
答案表是一个包含多个主键的复合表。SurveyID 和 QuestionID 是外键。
有些问题可能包含多个答案,因此同一个用户可能针对同一个 questionid 出现多次。

常见 SQL 查询

Questionid 的查询文本信息

从问题中选择*,其中QuestionID = 13;

查询指定 Questionid 的所有答案

从答案中选择答案文本,其中 QuestionID = 13;

给定问题 ID 的答案的查询分布

从答案中选择 AnswerText、COUNT(AnswerText),其中 QuestionID = 13 按 AnswerText 分组;

给定问题 ID 和调查年份的答案查询分布

从答案中选择 AnswerText、COUNT(AnswerText),其中 QuestionID = 1 和 surveyid = 2016 按 AnswerText 分组;

查询每项调查的参与人数

SELECT surveyid, COUNT(DISTINCT(userid)) FROM answer GROUP BY surveyid;

资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?