背景描述

电影类型分类
一个包含 50,000 部虚构电影的合成数据集,用于实践类型分类

数据说明

电影类型分类数据集(适合初学者)
这是一个为教育和实验目的而创建的合成数据集,专为机器学习初学者量身定制,用于练习分类任务。它包含 50,000 个虚构的电影记录,每个记录都具有各种结构化和非结构化特征,旨在反映电影数据中的真实模式。

主要目标是使用文本(描述)和元数据(如评级、持续时间、国家/地区等)信息来预测电影的类型。该数据集模拟了一个真实场景,其中流派分类可用于构建推荐系统、组织内容或用作自然语言处理和表格特征建模中的监督学习问题。

任务
任务是将电影分为七种预定义类型之一:
动作、喜剧、戏剧、浪漫、惊悚、恐怖和奇幻

此任务适用于:

探索性数据分析 (EDA)
文本预处理和矢量化
使用机器学习模型进行多类分类
NLP 技术,例如 TF-IDF、单词嵌入或转换器
将结构化和非结构化数据合并到单个模型中
数据集详细信息
总记录数:50,000 部电影
总功能: 17 列
包括结构化元数据和文本摘要
该数据是完全合成的,这意味着它不会使用或复制任何现实世界的受版权保护的内容
该列是目标变量,所有其他字段都是可用于预测的输入。Genre

此数据集轻量级、干净且随时可用,非常适合学习工作流程,例如:

数据清理
特征工程
模型评估和验证
部署就绪的分类管道
文件
movie_genre_classification_final.csv
包含 50,000 行× 17 列,以 UTF-8 编码的 CSV 格式保存。

资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?