3.6 KiB
NeedleBench V2:改进版大海捞针测试评估基准
English | 简体中文
概览
NeedleBench V2是一个改进版基准测试,旨在严格评估大型语言模型(LLMs)在长文本场景中的信息检索和推理能力。在原有NeedleBench的基础上,这个版本引入了重要的增强功能,为LLMs在海量文本中定位和推理关键信息的能力提供更准确、更公正的评估。
目录结构
configs/datasets/needlebench_v2/
├── atc
├── needlebench_v2_4k
├── needlebench_v2_8k
├── needlebench_v2_32k
├── needlebench_v2_128k
├── needlebench_v2_200k
├── needlebench_v2_256k
├── needlebench_v2_1000k
├── readme.md
└── readme_zh-CN.md
在每个长度配置目录下(如 needlebench_v2_4k
),包含了专门针对该长度设置的测试任务配置文件。
任务描述与长度配置
NeedleBench V2提供了不同长度配置的任务(4k、8k、32k、128k、200k、256k、1000k),以适应不同规模的语言模型评估需求。每种长度配置针对以下任务提供了专门的测试脚本:
单针信息检索
单针信息检索任务评估LLMs从特定长度的无关信息文本中回忆单个重要信息的能力。这个任务评估模型在长文本中识别和回忆特定信息的精确性。
多针信息检索
多针信息检索任务挑战LLMs识别和提取广泛文本中的多个关键信息点的能力。它模拟了现实世界中的场景,其中需要从文档或报告中检索多个数据点、事实或数字,评估模型在浏览和从密集文本中提取相关信息的效率。
多针信息推理
在NeedleBench V2中,多针信息推理任务得到了显著改进。原来基于R4C/MultiHop数据集的"针"已被替换为类似于祖源追溯挑战中的虚构信息。这一改变解决了潜在的内生知识偏差问题,因为原始数据集可能已被包含在一些模型的训练数据中。这个任务继续评估LLMs使用检索到的信息进行复杂推理的能力,要求模型不仅能回忆多个信息点,还能进行逻辑推理。
祖源追溯挑战 (ATC)
祖源追溯挑战在NeedleBench V2中进行了优化。针的分布模式从密集形式(1、2、3、4、5针)变为基于2的幂次的稀疏形式(2¹、2²、2³等)。这个任务仍然是NeedleBench中最复杂的任务,要求模型回忆和分析长文本中的每个细节,以解决需要理解复杂关系的问题,如家谱查询或详细案例分析。
评分方法
NeedleBench V2引入了更平衡的评分系统。总体评分现在是通过三个主要任务(单针信息检索、多针信息检索和多针信息推理)的简单平均值计算得出,每个任务获得相等的权重。这一改变从先前的加权平均方法提供了一种更直接、更公平的方式,评估模型在不同检索和推理任务中的能力。
提示增强
NeedleBench V2中的所有提示都经过了改进,以提高清晰度和有效性,特别关注了ATC实验的提示。配置结构也进行了精简,使其更易于使用和理解。
引用
如果您在研究中使用NeedleBench V2,请引用:
@misc{li2025needlebenchllmsretrievalreasoning,
title={NeedleBench: Can LLMs Do Retrieval and Reasoning in Information-Dense Context?},
author={Mo Li and Songyang Zhang and Taolin Zhang and Haodong Duan and Yunxin Liu and Kai Chen},
year={2025},
eprint={2407.11963},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.11963},
}