关于数据集
MLB击球统计数据 (2015-2024)
📝描述
此数据集包含来自以下的刮擦的美国职业棒球大联盟 (MLB) 击球统计数据棒球参考
从2015年到2024年。它是使用自定义Python抓取脚本收集的,然后在SQL中进行清理和处理,以用于分析和机器学习工作流。
这些数据提供了美国职业棒球大联盟十年历史中进攻球员表现的丰富视图。每一行代表一个球员的赛季,有关键的击球指标,如击球平均值 (BA) 、上场百分比 (OBP) 、拍打 (SLG) 、OPS、RBI、玩游戏 (G)。此数据集非常适合用于体育分析、预测建模和趋势分析。
⚙️ 数据收集 (Python)
使用Python脚本直接从棒球参考中抓取数据:
- 使用类似浏览器的标头发送HTTP请求,以避免请求阻塞。
- 用pandas.read_html() 解析HTML表。
- 为每个季节添加一个年份列。
- 通过删除符号 (#, *) 清除玩家名称。
- 为出现在多个球队/联赛中的球员保留摘要行。
- 转换的数值字段并用零填充缺失值。
- 每年都出口原始和清洁的csv。
🧹数据清理 (SQL)
- 刮擦后,原始击球表被上传到BigQuery并进一步清理:
- 删除了空值-排除了缺少关键字段 (Player、BA、OBP、SLG、OPS、Pos) 的行。
- 处理了重复记录-确定了重复的球员年联赛条目,并且仅保留了一个实例。
- 应用了最低比赛门槛-删除了少于100个蝙蝠的球员,以专注于有意义的赛季贡献。
- 最终清理的表 (cleaned_batting_stats) 提供了适用于分析的一致的、无重复的播放器摘要。
📊数据集结构
字段 | 描述 |
---|---|
Rk | 排名 (Rank) |
Player | 球员姓名 |
Age | 年龄 |
Team | 效力球队 |
Lg | 联盟 (League) |
WAR | 胜利贡献值 (综合评价球员价值的核心指标) |
G | 出赛场数 (Games played) |
PA | 打席数 (Plate Appearances) |
AB | 打数 (At Bats) |
R | 得分 (Runs) |
H | 安打数 (Hits) |
2B | 二垒安打数 (Doubles) |
3B | 三垒安打数 (Triples) |
HR | 本垒打数 (Home Runs) |
RBI | 打点 (Runs Batted In) |
SB | 偷垒成功次数 (Stolen Bases) |
CS | 偷垒失败次数 (Caught Stealing) |
BB | 四坏球保送数 (Base on Balls / Walks) |
SO | 三振出局数 (Strikeouts) |
BA | 打击率 (Batting Average) |
OBP | 上垒率 (On-base Percentage) |
SLG | 长打率 (Slugging Percentage) |
OPS | 整体攻击指数 (OBP + SLG) |
OPS+ | 调整后整体攻击指数 (联盟和球场校正后的OPS) |
rOBA | 跑垒上垒率 (近似OBP的另一种算法) |
Rbat+ | 调整后攻击得分 (衡量攻击贡献,100为联盟平均) |
TB | 总垒打数 (Total Bases) |
GIDP | 击出双杀打次数 (Grounded into Double Plays) |
HBP | 触身球次数 (Hit By Pitch) |
SH | 牺牲短打次数 (Sacrifice Hits / Bunts) |
SF | 牺牲高飞球次数 (Sacrifice Flies) |
IBB | 故意四坏球保送数 (Intentional Walks) |
Pos | 主要守备位置 (Position) |
Awards | 获奖情况 (如MVP, Cy Young等) |
Year | 数据所属年份 |
RowNum | 行号 (数据表中的行编号) |
🚀潜在用途
- 联盟趋势: 比较各个季节的击球平均值和OPS。
- 最佳执行者分析: 确定不同时代的最佳击球手。
- 预测建模: 使用回归或ML预测未来玩家统计数据。
- 聚类: 将玩家分组为进攻原型。
- 体育仪表板: 为粉丝和分析师构建交互式Tableau/Plotly仪表板。

资源下载
下载价格9.9 元
VIP免费
立即购买