关于数据集

金融新闻事件数据集 – 全面描述

概述

该合成数据集包含2025 年 2 月至 2025 年 8 月期间围绕重大市场事件的3,024 条金融新闻标题记录。该数据集捕捉了全球金融市场的实时市场动态、情绪分析和交易模式,非常适合金融分析、情绪建模和市场预测任务。

数据集规范

  • 总记录数:3,024 行
  • 总功能:12 列
  • 日期范围:2025年2月1日-2025年8月14日
  • 文件格式:CSV、JSON、XLSX
  • 数据质量:针对实际数据清理场景,策略性地分布约 5% 的空值

列描述

列名数据类型描述样本值空值
日期日期财经新闻发布日期2025年5月21日、2025年7月18日
标题细绳与市场事件相关的财经新闻标题“科技巨头的新产品发布激发了整个行业的收益”~5%
来源细绳新闻发布来源路透社、彭博社、CNBC、金融时报
市场事件细绳推动新闻的市场事件类别股市崩盘、利率变化、IPO启动
市场指数细绳相关股票市场指数标准普尔 500 指数、NSE Nifty 指数、DAX 指数、富时 100 指数
指数变化百分比漂浮市场指数百分比变化(-5% 至 +5%)3.52,-4.33,0.15~5%
交易量漂浮交易量以百万计(100万至5亿)166.45, 420.89, 76.55
情绪细绳新闻情感分类正面、中性、负面~5%
部门细绳受该消息影响的商业部门科技、金融、医疗、能源
影响级别细绳预期市场影响强度高、中、低
相关公司细绳新闻中提到的主要公司苹果公司、高盛、特斯拉、摩根大通
新闻网址细绳新闻文章的来源 URLhttps://www.reuters.com/markets/stocks/…~5%

主要特点和统计数据

市场事件报道(20 个类别)

  • 股市崩盘与反弹
  • 利率变化和央行会议
  • 企业盈利报告和 IPO 发布
  • 政府政策公告
  • 贸易关税和地缘政治事件
  • 加密货币法规
  • 供应链中断
  • 经济数据发布

全球市场指数(18个主要指数)

  • 美国市场:标准普尔 500 指数、道琼斯指数、纳斯达克综合指数、罗素 2000 指数
  • 印度市场:NSE Nifty、BSE Sensex
  • 欧洲市场:英国富时 100 指数、德国 DAX 指数、欧洲斯托克 50 指数、法国 CAC 40 指数
  • 亚洲市场:日经 225 指数、恒生指数、上证综合指数、韩国综合股价指数
  • 其他:TSX、ASX 200、IBOVESPA、S&P/TSX 综合指数

新闻来源(18家知名出版物)

主要金融新闻媒体包括路透社、彭博社、CNBC、金融时报、华尔街日报、经济时报、福布斯和专业金融出版物。

行业分布(18个业务领域)

技术、金融、医疗保健、能源、消费品、公用事业、工业、材料、房地产、电信、汽车、零售、制药、航空航天和国防、农业、交通运输、媒体和娱乐、建筑。

数据质量和预处理说明

  • 真实的空值分布:关键列(标题、情绪、Index_Change_Percent、News_Url)中约有 5% 的空值,以模拟现实世界的数据收集挑战
  • 平衡情绪分布:积极、中性和消极情绪分类的混合
  • 多样化的市场条件:指数变化范围从 -5% 到 +5%,反映了不同的市场情况
  • 交易量变化:交易量范围从 100 万到 5 亿,代表不同的市场流动性状况

潜在用例

📈财务分析

  • 市场情绪分析与趋势预测
  • 新闻事件与市场走势的相关性研究
  • 交易量模式分析

🤖机器学习应用

  • 情绪分类模型训练
  • 市场走势预测算法
  • 新闻标题生成模型
  • 事件驱动的交易策略开发

📊数据可视化项目

  • 交互式市场情绪仪表盘
  • 市场事件的时间序列分析
  • 金融新闻影响力的地理分布
  • 行业绩效可视化

🔍研究应用

  • 市场效率的学术研究
  • 新闻对不同行业的影响分析
  • 跨市场相关性研究
  • 事件研究方法

技术规格

  • 内存使用量:所有格式约 1.5MB
  • 处理建议:适用于pandas DataFrame操作、SQL分析以及大多数ML框架
  • 可扩展性:针对小规模分析和大规模建模任务进行了优化

该数据集为金融数据科学投资组合项目奠定了良好的基础,展示了现实世界数据处理、情绪分析和市场分析方面的熟练程度——这些是金融科技和数据科学行业高度重视的关键技能。

资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?