关于数据集
金融新闻事件数据集 – 全面描述
概述
该合成数据集包含2025 年 2 月至 2025 年 8 月期间围绕重大市场事件的3,024 条金融新闻标题记录。该数据集捕捉了全球金融市场的实时市场动态、情绪分析和交易模式,非常适合金融分析、情绪建模和市场预测任务。
数据集规范
- 总记录数:3,024 行
- 总功能:12 列
- 日期范围:2025年2月1日-2025年8月14日
- 文件格式:CSV、JSON、XLSX
- 数据质量:针对实际数据清理场景,策略性地分布约 5% 的空值
列描述
列名 | 数据类型 | 描述 | 样本值 | 空值 |
---|---|---|---|---|
日期 | 日期 | 财经新闻发布日期 | 2025年5月21日、2025年7月18日 | 不 |
标题 | 细绳 | 与市场事件相关的财经新闻标题 | “科技巨头的新产品发布激发了整个行业的收益” | ~5% |
来源 | 细绳 | 新闻发布来源 | 路透社、彭博社、CNBC、金融时报 | 不 |
市场事件 | 细绳 | 推动新闻的市场事件类别 | 股市崩盘、利率变化、IPO启动 | 不 |
市场指数 | 细绳 | 相关股票市场指数 | 标准普尔 500 指数、NSE Nifty 指数、DAX 指数、富时 100 指数 | 不 |
指数变化百分比 | 漂浮 | 市场指数百分比变化(-5% 至 +5%) | 3.52,-4.33,0.15 | ~5% |
交易量 | 漂浮 | 交易量以百万计(100万至5亿) | 166.45, 420.89, 76.55 | 不 |
情绪 | 细绳 | 新闻情感分类 | 正面、中性、负面 | ~5% |
部门 | 细绳 | 受该消息影响的商业部门 | 科技、金融、医疗、能源 | 不 |
影响级别 | 细绳 | 预期市场影响强度 | 高、中、低 | 不 |
相关公司 | 细绳 | 新闻中提到的主要公司 | 苹果公司、高盛、特斯拉、摩根大通 | 不 |
新闻网址 | 细绳 | 新闻文章的来源 URL | https://www.reuters.com/markets/stocks/… | ~5% |
主要特点和统计数据
市场事件报道(20 个类别)
- 股市崩盘与反弹
- 利率变化和央行会议
- 企业盈利报告和 IPO 发布
- 政府政策公告
- 贸易关税和地缘政治事件
- 加密货币法规
- 供应链中断
- 经济数据发布
全球市场指数(18个主要指数)
- 美国市场:标准普尔 500 指数、道琼斯指数、纳斯达克综合指数、罗素 2000 指数
- 印度市场:NSE Nifty、BSE Sensex
- 欧洲市场:英国富时 100 指数、德国 DAX 指数、欧洲斯托克 50 指数、法国 CAC 40 指数
- 亚洲市场:日经 225 指数、恒生指数、上证综合指数、韩国综合股价指数
- 其他:TSX、ASX 200、IBOVESPA、S&P/TSX 综合指数
新闻来源(18家知名出版物)
主要金融新闻媒体包括路透社、彭博社、CNBC、金融时报、华尔街日报、经济时报、福布斯和专业金融出版物。
行业分布(18个业务领域)
技术、金融、医疗保健、能源、消费品、公用事业、工业、材料、房地产、电信、汽车、零售、制药、航空航天和国防、农业、交通运输、媒体和娱乐、建筑。
数据质量和预处理说明
- 真实的空值分布:关键列(标题、情绪、Index_Change_Percent、News_Url)中约有 5% 的空值,以模拟现实世界的数据收集挑战
- 平衡情绪分布:积极、中性和消极情绪分类的混合
- 多样化的市场条件:指数变化范围从 -5% 到 +5%,反映了不同的市场情况
- 交易量变化:交易量范围从 100 万到 5 亿,代表不同的市场流动性状况
潜在用例
📈财务分析
- 市场情绪分析与趋势预测
- 新闻事件与市场走势的相关性研究
- 交易量模式分析
🤖机器学习应用
- 情绪分类模型训练
- 市场走势预测算法
- 新闻标题生成模型
- 事件驱动的交易策略开发
📊数据可视化项目
- 交互式市场情绪仪表盘
- 市场事件的时间序列分析
- 金融新闻影响力的地理分布
- 行业绩效可视化
🔍研究应用
- 市场效率的学术研究
- 新闻对不同行业的影响分析
- 跨市场相关性研究
- 事件研究方法
技术规格
- 内存使用量:所有格式约 1.5MB
- 处理建议:适用于pandas DataFrame操作、SQL分析以及大多数ML框架
- 可扩展性:针对小规模分析和大规模建模任务进行了优化
该数据集为金融数据科学投资组合项目奠定了良好的基础,展示了现实世界数据处理、情绪分析和市场分析方面的熟练程度——这些是金融科技和数据科学行业高度重视的关键技能。

资源下载
下载价格9.9 元
VIP免费
立即购买