关于数据集
📊学生成绩数据集 (合成,现实)
概述
此数据集包含1000000行真实的学生成绩数据,设计用于机器学习的初学者实践线性回归、模型训练和评估技术。
每行代表一个学生,具有学习时间,出勤,课堂参与和最终分数等功能。
数据集很小,干净,结构合理,适合初学者。
🔑列说明
- student_id→ 每个学生的唯一标识符。
- weekly_self_study_hours→ 平均每周自学时间 (0-40)。使用以15小时为中心的正态分布生成。
- attendance_percentage→ 出勤率 (50-100)。用85% 左右的正态分布进行模拟。
- class_participation→ 分数在0-10之间,表示学生参与课堂的积极程度。从以6为中心的正态分布生成。
- total_score→ 最终成绩得分 (0-100)。作为研究时间 + 随机噪声的函数计算,然后在0-100之间限幅。与学习时间相关性更强。
- grade→ 从total_score导出的分类标签 (A,B,C,D,F)。
📐数据生成逻辑
- 每周学习时数: 使用正态分布 (平均值 ≈ 15,标准偏差 ≈ 7) 建模,上限在0到40小时之间。
- 分数: 更多的学习时间 → 更高的分数。公式:
随机噪声模拟学习能力、动机等方面的差异。
- 出席和参与: 增加了独立但现实的变化。
- 等级: 使用阈值从分数分配:
- A: ≥ 85
- B: ≥ 70
- C: ≥ 55
- D: ≥ 40
- F: < 40
🎯如何使用此数据集
回归任务
- 预测
total_score从weekly_self_study_hours。 - 培训和评估线性回归模型。
- 使用扩展到多元回归
attendance_percentage和class_participation。
分类任务
- 预测
grade(A-F) 使用学习时间、出勤率和参与度。
模型评价实践
- 应用列车测试拆分和交叉验证。
- 评估与MAE, RMSE, R²。
- 比较简单回归与多元回归。
✅这个数据集是故意保持简单的,所以新的ML学习者可以清楚地看到输入特征 (学习,出勤,参与) 和输出 (分数/等级) 之间的关系。

资源下载
下载价格9.9 元
VIP免费
立即购买
