高中学生的表现以及人口统计、社会和父母数据

关于数据集

该数据集包含两所葡萄牙高中的学生成绩数据。
数据通过学校报告和问卷调查收集,涵盖学生成绩、人口统计、社交、家长和学校相关特征。

我们提供两组数据集,分别涵盖数学和葡萄牙语两个不同学科的成绩。我对原始数据集进行了清理,使其更易于阅读和使用。

student_math_cleaned.csv(数学课程)和 student_portuguese_cleaned.csv(葡萄牙语课程)数据集的属性:

  1. school – 学生所在学校(二进制:“GP”- Gabriel Pereira 或“MS”- Mousinho da Silveira)
  2. 性别 – 学生的性别(二进制:“F” – 女性或“M” – 男性)
  3. 年龄 – 学生年龄(数字:从 15 到 22)
  4. address_type – 学生家庭住址类型(二进制:“城市”或“农村”)
  5. family_size – 家庭规模(二进制:“小于或等于 3”或“大于 3”)
  6. parent_status – 父母的同居状态(二进制:“同居”或“分开”)
  7. mother_education – 母亲的教育程度(序数:“无”、“小学教育(4 年级)”、“5 至 9 年级”、“中学教育”或“高等教育”)
  8. father_education – 父亲的教育程度(序数:“无”、“小学(4 年级)”、“5 至 9 年级”、“中学教育”或“高等教育”)
  9. mother_job – 母亲的工作(名义上的:“教师”、“健康”相关、民事“服务”(例如行政或警察)、“at_home”或“其他”)
  10. father_job – 父亲的工作(名义上的:“教师”、“健康”护理相关、公务“服务”(例如行政或警察)、“at_home”或“其他”)
  11. 原因 – 选择这所学校的原因(名义上的:靠近“家”,学校“声誉”,“课程”偏好或“其他”)
  12. 监护人 – 学生的监护人(名义:“母亲”、“父亲”或“其他”)
  13. travel_time – 从家到学校的旅行时间(序数:“<15 分钟”、“15 至 30 分钟”、“30 分钟至 1 小时”或 4 – >1 小时”)
  14. study_time – 每周学习时间(序数:1 – “<2 小时”、“2 至 5 小时”、“5 至 10 小时”或“>10 小时”)
  15. class_failures – 过去类别失败的次数(数字:如果 1<=n<3,则为 n,否则为 4)
  16. school_support – 额外的教育支持(二进制:是或否)
  17. family_support – 家庭教育支持(二进制:是或否)
  18. extra_paid_classes – 课程科目(数学或葡萄牙语)内的额外付费课程(二进制:是或否)
  19. 活动 – 课外活动(二进制:是或否)
  20. 幼儿园 – 上过幼儿园(二进制:是或否)
  21. higher_ed – 想要接受高等教育(二进制:是或否)
  22. internet – 在家访问互联网(二进制:是或否)
  23. romantic_relationship – 具有浪漫关系(二进制:是或否)
  24. family_relationship – 家庭关系质量(数字:从 1 – 非常差到 5 – 优秀)
  25. free_time – 放学后的空闲时间(数字:从 1 – 非常低到 5 – 非常高)
  26. 社交 – 与朋友外出(数字:从 1 – 非常低到 5 – 非常高)
  27. weekday_alcohol – 工作日酒精消费量(数字:从 1 – 非常低到 5 – 非常高)
  28. weekend_alcohol – 周末酒精消费量(数字:从 1 – 非常低到 5 – 非常高)
  29. 健康 – 当前健康状况(数字:从 1 – 非常糟糕到 5 – 非常好)
  30. 缺勤 – 缺课次数(数字:从 0 到 93)

这些成绩与课程科目数学或葡萄牙语相关:

  1. grade_1 – 第一阶段成绩(数字:从 0 到 20)
  2. grade_2 – 第二阶段成绩(数字:从 0 到 20)
  3. final_grade – 最终成绩(数字:从 0 到 20,输出目标)

重要提示:目标属性 final_grade 与属性 grade_2 和 grade_1 高度相关。这是因为 final_grade 是最后一年的成绩(在第 3 个学期颁发),而 grade_1 和 grade_2 分别对应第 1 个学期和第 2 个学期的成绩。如果没有 grade_2 和 grade_1,预测 final_grade 会更加困难,但这些预测会更有用。

补充说明:虽然 ID 不匹配,但两个数据集中共有 382 名学生。
可以通过搜索每个学生的相同属性来识别这些学生。

资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?