关于数据集

🎬 Netflix 风格的合成数据集:210K+ 条记录,应对现实世界的数据挑战

专为数据科学教育和机器学习实践而设计的综合流媒体平台模拟。

🎯是什么让这个数据集如此特别?

这不仅仅是一个干净的数据集——它是专门针对现实数据质量问题精心打造的,反映了数据科学家在生产环境中遇到的问题。非常适合学习数据清理、预处理和构建强大的机器学习流程。

📊数据集结构(6 个相互连接的表)

文件记录描述关键学习机会
用户.csv10,300人口统计 + 订阅年龄/支出中的缺失值、重复值、异常值
电影.csv1,040内容元数据+评级缺少类型、预算异常、格式不一致
观看历史记录.csv105,000查看会话和行为狂欢模式、设备偏好、不完整的会话
推荐日志.csv52,000算法建议点击分析、A/B 测试数据
搜索日志.csv26,500用户搜索查询拼写错误、搜索失败、查询优化
评论.csv15,450文字评论+情绪NLP预处理、情感分类

🎲有意为之的数据质量挑战

  • 缺失值:不同领域的 10-20%(现实模式)
  • 重复:3-6%重复记录(用户行为模拟)
  • 异常值:年龄极端、消费异常、观看马拉松
  • 不一致:拼写错误、格式变化、条目不完整
  • 时间模式:季节性观看、周末狂欢、节假日高峰

🚀非常适合这些 ML 项目

🎯 分类与预测

  • 用户流失预测
  • 内容类型分类
  • 评论情绪分析
  • 点击率预测

🤖 推荐系统

  • 协同过滤
  • 基于内容的推荐
  • 混合推荐模型
  • 神经协同过滤

📈 时间序列和分析

  • 查看模式预测
  • 季节性趋势分析
  • 用户参与度指标
  • 内容受欢迎程度预测

🧹 数据工程

  • 数据清理工作流程
  • ETL 管道开发
  • 数据质量评估
  • 特征工程实践

🌍地理和时间范围

  • 地区:美国(70%)和加拿大(30%),分布实际
  • 时间范围:2024-2025 年观看数据
  • 语言:英语评论和搜索查询
  • 设备:移动设备、电视、台式电脑、平板电脑的使用模式

🔗数据关系

user_id所有表都通过外键连接movie_id,从而实现:

  • 跨表分析和连接
  • 用户旅程图
  • 内容绩效相关性
  • 全面的用户分析
资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?