高中学生的表现以及人口统计、社会和父母数据
关于数据集
该数据集包含两所葡萄牙高中的学生成绩数据。
数据通过学校报告和问卷调查收集,涵盖学生成绩、人口统计、社交、家长和学校相关特征。
我们提供两组数据集,分别涵盖数学和葡萄牙语两个不同学科的成绩。我对原始数据集进行了清理,使其更易于阅读和使用。
student_math_cleaned.csv(数学课程)和 student_portuguese_cleaned.csv(葡萄牙语课程)数据集的属性:
- school – 学生所在学校(二进制:“GP”- Gabriel Pereira 或“MS”- Mousinho da Silveira)
- 性别 – 学生的性别(二进制:“F” – 女性或“M” – 男性)
- 年龄 – 学生年龄(数字:从 15 到 22)
- address_type – 学生家庭住址类型(二进制:“城市”或“农村”)
- family_size – 家庭规模(二进制:“小于或等于 3”或“大于 3”)
- parent_status – 父母的同居状态(二进制:“同居”或“分开”)
- mother_education – 母亲的教育程度(序数:“无”、“小学教育(4 年级)”、“5 至 9 年级”、“中学教育”或“高等教育”)
- father_education – 父亲的教育程度(序数:“无”、“小学(4 年级)”、“5 至 9 年级”、“中学教育”或“高等教育”)
- mother_job – 母亲的工作(名义上的:“教师”、“健康”相关、民事“服务”(例如行政或警察)、“at_home”或“其他”)
- father_job – 父亲的工作(名义上的:“教师”、“健康”护理相关、公务“服务”(例如行政或警察)、“at_home”或“其他”)
- 原因 – 选择这所学校的原因(名义上的:靠近“家”,学校“声誉”,“课程”偏好或“其他”)
- 监护人 – 学生的监护人(名义:“母亲”、“父亲”或“其他”)
- travel_time – 从家到学校的旅行时间(序数:“<15 分钟”、“15 至 30 分钟”、“30 分钟至 1 小时”或 4 – >1 小时”)
- study_time – 每周学习时间(序数:1 – “<2 小时”、“2 至 5 小时”、“5 至 10 小时”或“>10 小时”)
- class_failures – 过去类别失败的次数(数字:如果 1<=n<3,则为 n,否则为 4)
- school_support – 额外的教育支持(二进制:是或否)
- family_support – 家庭教育支持(二进制:是或否)
- extra_paid_classes – 课程科目(数学或葡萄牙语)内的额外付费课程(二进制:是或否)
- 活动 – 课外活动(二进制:是或否)
- 幼儿园 – 上过幼儿园(二进制:是或否)
- higher_ed – 想要接受高等教育(二进制:是或否)
- internet – 在家访问互联网(二进制:是或否)
- romantic_relationship – 具有浪漫关系(二进制:是或否)
- family_relationship – 家庭关系质量(数字:从 1 – 非常差到 5 – 优秀)
- free_time – 放学后的空闲时间(数字:从 1 – 非常低到 5 – 非常高)
- 社交 – 与朋友外出(数字:从 1 – 非常低到 5 – 非常高)
- weekday_alcohol – 工作日酒精消费量(数字:从 1 – 非常低到 5 – 非常高)
- weekend_alcohol – 周末酒精消费量(数字:从 1 – 非常低到 5 – 非常高)
- 健康 – 当前健康状况(数字:从 1 – 非常糟糕到 5 – 非常好)
- 缺勤 – 缺课次数(数字:从 0 到 93)
这些成绩与课程科目数学或葡萄牙语相关:
- grade_1 – 第一阶段成绩(数字:从 0 到 20)
- grade_2 – 第二阶段成绩(数字:从 0 到 20)
- final_grade – 最终成绩(数字:从 0 到 20,输出目标)
重要提示:目标属性 final_grade 与属性 grade_2 和 grade_1 高度相关。这是因为 final_grade 是最后一年的成绩(在第 3 个学期颁发),而 grade_1 和 grade_2 分别对应第 1 个学期和第 2 个学期的成绩。如果没有 grade_2 和 grade_1,预测 final_grade 会更加困难,但这些预测会更有用。
补充说明:虽然 ID 不匹配,但两个数据集中共有 382 名学生。
可以通过搜索每个学生的相同属性来识别这些学生。

资源下载
下载价格9.9 元
VIP免费
立即购买