关于数据集

📦具有 AST 和 Token 特征的软件缺陷多语言数据集此存储库提供跨多种编程语言的1,000 个合成代码函数
的数据集,用于软件缺陷预测多语言静态分析LLM 评估。🙋如果您在研究或项目中使用此数据集, 请引用 ,请引用为:

Ravikumar RN,具有AST特征的软件缺陷多语言数据集 (2025)。由用于缺陷预测和多语言代码分析的合成方法生成。🧠数据集亮点

  • 包含的语言:Python、Java、JavaScript、C、C++、Go、Rust
  • 记录:1,000 个代码片段
  • 标签defect(1 = 有缺陷,0 = 干净)
  • 特征
    • token_count:总令牌数(基于 Python 的 AST)
    • num_ifsnum_returnsnum_func_calls: 代码结构特点
    • ast_nodes:抽象语法树中的节点数(仅限 Python)
    • lines_of_codecyclomatic_complexity:用于建模的模拟指标📊列说明|列|说明||———————-|—————————————————–|||function_name 函数的唯一标识符|||实际code 函数源代码|||使用language 的编程语言|||函数lines_of_code 中的大约行数|||决策cyclomatic_complexity复杂度的模拟度量||| defect 1 = 有缺陷,0 = 干净|||token_count 总令牌数(Python 使用 AST 令牌)|||’ num_ifs if’ 语句数|||’ num_returns return’ 语句数|||函数num_func_calls 调用次数|||ASTast_nodes 节点数(仅限 Python,fallback = 令牌数)|🛠️使用示例此数据集适用于:
  • 训练传统机器学习模型,例如随机森林或 XGBoost
  • 评估基于提示或微调的 LLM(例如 CodeT5、GPT-4)
  • 使用 AST 和静态代码指标进行特征重要性研究
  • 代码理解中的跨语言迁移学习
资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?