关于数据集
🎬 Netflix 风格的合成数据集:210K+ 条记录,应对现实世界的数据挑战
专为数据科学教育和机器学习实践而设计的综合流媒体平台模拟。
🎯是什么让这个数据集如此特别?
这不仅仅是一个干净的数据集——它是专门针对现实数据质量问题精心打造的,反映了数据科学家在生产环境中遇到的问题。非常适合学习数据清理、预处理和构建强大的机器学习流程。
📊数据集结构(6 个相互连接的表)
文件 | 记录 | 描述 | 关键学习机会 |
---|---|---|---|
用户.csv | 10,300 | 人口统计 + 订阅 | 年龄/支出中的缺失值、重复值、异常值 |
电影.csv | 1,040 | 内容元数据+评级 | 缺少类型、预算异常、格式不一致 |
观看历史记录.csv | 105,000 | 查看会话和行为 | 狂欢模式、设备偏好、不完整的会话 |
推荐日志.csv | 52,000 | 算法建议 | 点击分析、A/B 测试数据 |
搜索日志.csv | 26,500 | 用户搜索查询 | 拼写错误、搜索失败、查询优化 |
评论.csv | 15,450 | 文字评论+情绪 | NLP预处理、情感分类 |
🎲有意为之的数据质量挑战
- 缺失值:不同领域的 10-20%(现实模式)
- 重复:3-6%重复记录(用户行为模拟)
- 异常值:年龄极端、消费异常、观看马拉松
- 不一致:拼写错误、格式变化、条目不完整
- 时间模式:季节性观看、周末狂欢、节假日高峰
🚀非常适合这些 ML 项目
🎯 分类与预测
- 用户流失预测
- 内容类型分类
- 评论情绪分析
- 点击率预测
🤖 推荐系统
- 协同过滤
- 基于内容的推荐
- 混合推荐模型
- 神经协同过滤
📈 时间序列和分析
- 查看模式预测
- 季节性趋势分析
- 用户参与度指标
- 内容受欢迎程度预测
🧹 数据工程
- 数据清理工作流程
- ETL 管道开发
- 数据质量评估
- 特征工程实践
🌍地理和时间范围
- 地区:美国(70%)和加拿大(30%),分布实际
- 时间范围:2024-2025 年观看数据
- 语言:英语评论和搜索查询
- 设备:移动设备、电视、台式电脑、平板电脑的使用模式
🔗数据关系
user_id
所有表都通过外键连接movie_id
,从而实现:
- 跨表分析和连接
- 用户旅程图
- 内容绩效相关性
- 全面的用户分析

资源下载
下载价格9.9 元
VIP免费
立即购买