OpenCompass/opencompass/configs/datasets/needlebench_v2/readme_zh-CN.md
2025-05-13 14:32:26 +08:00

3.6 KiB
Raw Blame History

NeedleBench V2改进版大海捞针测试评估基准

English | 简体中文

概览

NeedleBench V2是一个改进版基准测试旨在严格评估大型语言模型LLMs在长文本场景中的信息检索和推理能力。在原有NeedleBench的基础上这个版本引入了重要的增强功能为LLMs在海量文本中定位和推理关键信息的能力提供更准确、更公正的评估。

目录结构

configs/datasets/needlebench_v2/
├── atc
├── needlebench_v2_4k
├── needlebench_v2_8k
├── needlebench_v2_32k
├── needlebench_v2_128k
├── needlebench_v2_200k
├── needlebench_v2_256k
├── needlebench_v2_1000k
├── readme.md
└── readme_zh-CN.md

在每个长度配置目录下(如 needlebench_v2_4k),包含了专门针对该长度设置的测试任务配置文件。

任务描述与长度配置

NeedleBench V2提供了不同长度配置的任务4k、8k、32k、128k、200k、256k、1000k以适应不同规模的语言模型评估需求。每种长度配置针对以下任务提供了专门的测试脚本

单针信息检索

单针信息检索任务评估LLMs从特定长度的无关信息文本中回忆单个重要信息的能力。这个任务评估模型在长文本中识别和回忆特定信息的精确性。

多针信息检索

多针信息检索任务挑战LLMs识别和提取广泛文本中的多个关键信息点的能力。它模拟了现实世界中的场景其中需要从文档或报告中检索多个数据点、事实或数字评估模型在浏览和从密集文本中提取相关信息的效率。

多针信息推理

在NeedleBench V2中多针信息推理任务得到了显著改进。原来基于R4C/MultiHop数据集的"针"已被替换为类似于祖源追溯挑战中的虚构信息。这一改变解决了潜在的内生知识偏差问题因为原始数据集可能已被包含在一些模型的训练数据中。这个任务继续评估LLMs使用检索到的信息进行复杂推理的能力要求模型不仅能回忆多个信息点还能进行逻辑推理。

祖源追溯挑战 (ATC)

祖源追溯挑战在NeedleBench V2中进行了优化。针的分布模式从密集形式1、2、3、4、5针变为基于2的幂次的稀疏形式2¹、2²、2³等。这个任务仍然是NeedleBench中最复杂的任务要求模型回忆和分析长文本中的每个细节以解决需要理解复杂关系的问题如家谱查询或详细案例分析。

评分方法

NeedleBench V2引入了更平衡的评分系统。总体评分现在是通过三个主要任务单针信息检索、多针信息检索和多针信息推理的简单平均值计算得出每个任务获得相等的权重。这一改变从先前的加权平均方法提供了一种更直接、更公平的方式评估模型在不同检索和推理任务中的能力。

提示增强

NeedleBench V2中的所有提示都经过了改进以提高清晰度和有效性特别关注了ATC实验的提示。配置结构也进行了精简使其更易于使用和理解。

引用

如果您在研究中使用NeedleBench V2请引用

@misc{li2025needlebenchllmsretrievalreasoning,
      title={NeedleBench: Can LLMs Do Retrieval and Reasoning in Information-Dense Context?}, 
      author={Mo Li and Songyang Zhang and Taolin Zhang and Haodong Duan and Yunxin Liu and Kai Chen},
      year={2025},
      eprint={2407.11963},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2407.11963}, 
}