关于数据集

该数据集包含47,917 场国际足球比赛的结果,涵盖从 1872 年首场正式比赛到 2025 年的比赛。比赛范围涵盖国际足联世界杯、国际足联野猫杯以及常规友谊赛。比赛均为严格意义上的男子国际比赛,数据不包括奥运会比赛,以及至少有一支国家 B 队、U-23 队或联赛精选队的比赛。

results.csv包括以下列:

  • date– 比赛日期
  • home_team– 主队名称
  • away_team– 客队名称
  • home_score– 主队全场得分(包括加时赛,不包括点球大战)
  • away_score– 客队全场得分(包括加时赛,不包括点球大战)
  • tournament– 锦标赛名称
  • city– 比赛举办城市/城镇/行政单位的名称
  • country– 比赛举办国的名称
  • neutral– TRUE/FALSE 列指示比赛是否在中立场地进行

shootouts.csv包括以下列:

  • date– 比赛日期
  • home_team– 主队名称
  • away_team– 客队名称
  • winner– 点球大战获胜者
  • first_shooter– 在点球大战中先出场的球队

goalscorers.csv包括以下列:

  • date– 比赛日期
  • home_team– 主队名称
  • away_team– 客队名称
  • team– 进球球队的名称
  • scorer– 进球球员的姓名
  • own_goal– 该进球是否为乌龙球
  • penalty– 进球是否是点球

former_names.csv包括以下列:

  • current– 当前使用的球队名称(如果球队不再存在,则使用姓氏)
  • former– 该球队曾使用过的名称
  • start_date– 开始使用原名称的日期
  • end_date– 以前名称使用的结束日期

关于球队和国家名称的说明:主队和客队均使用球队的当前名称。例如,1882 年一支自称爱尔兰的球队与英格兰队比赛时,在本数据集中,该球队被称为北爱尔兰队,因为北爱尔兰队的现任成员是 1882 年爱尔兰队的继承者。这样做是为了更容易追踪球队的历史和统计数据。

对于国家名称,使用比赛时的国家名称。例如,20 世纪 50 年代,加纳队在黄金海岸阿克拉进行比赛时,即使主队名称与国家名称不匹配,这场比赛也是加纳队的主场。中立方列会显示“FALSE”,表示比赛地点并非中立。

致谢

数据来自多个来源,包括但不限于维基百科、rsssf.com 和各个足球协会的网站。

灵感

探索数据时应采取的一些方向:

  • 谁是史上最佳球队
  • 哪些球队在不同的足球时代占据主导地位
  • 各个时代的国际足球都有哪些趋势?主场优势、总进球数、球队实力分布等
  • 我们能从足球比赛中看出一些关于地缘政治的东西吗?比如国家数量发生了怎样的变化,哪些球队喜欢互相比赛
  • 哪些国家举办的比赛最多,而他们自己却不参加
  • 举办大型赛事对一个国家在赛事中获胜的机会有多大帮助?
  • 哪些球队在友谊赛和友谊锦标赛中最为活跃——这对他们有帮助还是有害?
资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?