关于数据集

📊学生成绩数据集 (合成,现实)

概述

此数据集包含1000000行真实的学生成绩数据,设计用于机器学习的初学者实践线性回归、模型训练和评估技术

每行代表一个学生,具有学习时间,出勤,课堂参与和最终分数等功能。
数据集很小,干净,结构合理,适合初学者。


🔑列说明

  • student_id→ 每个学生的唯一标识符。
  • weekly_self_study_hours→ 平均每周自学时间 (0-40)。使用以15小时为中心的正态分布生成。
  • attendance_percentage→ 出勤率 (50-100)。用85% 左右的正态分布进行模拟。
  • class_participation→ 分数在0-10之间,表示学生参与课堂的积极程度。从以6为中心的正态分布生成。
  • total_score→ 最终成绩得分 (0-100)。作为研究时间 + 随机噪声的函数计算,然后在0-100之间限幅。与学习时间相关性更强。
  • grade→ 从total_score导出的分类标签 (A,B,C,D,F)。

📐数据生成逻辑

  1. 每周学习时数: 使用正态分布 (平均值 ≈ 15,标准偏差 ≈ 7) 建模,上限在0到40小时之间。
  2. 分数: 更多的学习时间 → 更高的分数。公式:

随机噪声模拟学习能力、动机等方面的差异。

  1. 出席和参与: 增加了独立但现实的变化。
  2. 等级: 使用阈值从分数分配:
  • A: ≥ 85
  • B: ≥ 70
  • C: ≥ 55
  • D: ≥ 40
  • F: < 40

🎯如何使用此数据集

回归任务

  • 预测total_scoreweekly_self_study_hours
  • 培训和评估线性回归模型
  • 使用扩展到多元回归attendance_percentageclass_participation

分类任务

  • 预测grade(A-F) 使用学习时间、出勤率和参与度。

模型评价实践

  • 应用列车测试拆分交叉验证
  • 评估与MAE, RMSE, R²
  • 比较简单回归与多元回归

✅这个数据集是故意保持简单的,所以新的ML学习者可以清楚地看到输入特征 (学习,出勤,参与) 和输出 (分数/等级) 之间的关系。

资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?