OpenCompass/examples/eval_needlebench.py

from mmengine.config import read_base
# we use mmengine.config to import other config files

with read_base():
    from opencompass.configs.models.hf_internlm.hf_internlm2_chat_7b import models as internlm2_chat_7b

    # Evaluate needlebench_32k, adjust the configuration to use 4k, 32k, 128k, 200k, or 1000k if necessary.
    # from .datasets.needlebench.needlebench_32k.needlebench_32k import needlebench_datasets
    # from .summarizers.needlebench import needlebench_32k_summarizer as summarizer

    # only eval original "needle in a haystack test" in needlebench_32k
    from opencompass.configs.datasets.needlebench.needlebench_32k.needlebench_single_32k import needlebench_zh_datasets, needlebench_en_datasets
    from opencompass.configs.summarizers.needlebench import needlebench_32k_summarizer as summarizer

    # eval Ancestral Tracing Challenge(ATC)
    # from .datasets.needlebench.atc.atc_0shot_nocot_2_power_en import needlebench_datasets
    # ATC use default summarizer thus no need to import summarizer

datasets = sum([v for k, v in locals().items() if ('datasets' in k)], [])

for m in internlm2_chat_7b:
    m['max_seq_len'] = 32768 # 保证InternLM2-7B模型能接收到完整的长文本，其他模型需要根据各自支持的最大序列长度修改。
    m['max_out_len'] = 4096

models = internlm2_chat_7b

work_dir = './outputs/needlebench'
-												[Feature] Upgrade the needle-in-a-haystack experiment to Needlebench (#913)

* add needlebench

* simplify needlebench 32k, 128k, 200k for eval

* update act prompt

* fix bug in needlebench summarizer

* add needlebench intro, fix summarizer

* lint summarizer

* fix linting error

* move readme.md

* update readme for needlebench

* update docs of needlebench

* simplify needlebench summarizers
											
										
										
											2024-03-04 11:10:52 +08:00
+								from mmengine.config import read_base
-												[Docs] fix needlebench examples

											
										
										
											2025-04-27 16:36:59 +08:00
+								# we use mmengine.config to import other config files
-												[Feature] Upgrade the needle-in-a-haystack experiment to Needlebench (#913)

* add needlebench

* simplify needlebench 32k, 128k, 200k for eval

* update act prompt

* fix bug in needlebench summarizer

* add needlebench intro, fix summarizer

* lint summarizer

* fix linting error

* move readme.md

* update readme for needlebench

* update docs of needlebench

* simplify needlebench summarizers
											
										
										
											2024-03-04 11:10:52 +08:00
-												[Refactor] Code refactoarization (#1831)

* Update

* fix lint

* update

* fix lint
											
										
										
											2025-01-20 19:17:38 +08:00
+								with read_base():
-												[Docs] fix needlebench examples

											
										
										
											2025-04-27 16:36:59 +08:00
+								    from opencompass.configs.models.hf_internlm.hf_internlm2_chat_7b import models as internlm2_chat_7b
 								    # Evaluate needlebench_32k, adjust the configuration to use 4k, 32k, 128k, 200k, or 1000k if necessary.
 								    # from .datasets.needlebench.needlebench_32k.needlebench_32k import needlebench_datasets
 								    # from .summarizers.needlebench import needlebench_32k_summarizer as summarizer
 								    # only eval original "needle in a haystack test" in needlebench_32k
 								    from opencompass.configs.datasets.needlebench.needlebench_32k.needlebench_single_32k import needlebench_zh_datasets, needlebench_en_datasets
 								    from opencompass.configs.summarizers.needlebench import needlebench_32k_summarizer as summarizer
-												[Doc] Update NeedleInAHaystack Docs (#1102)

* update NeedleInAHaystack Test Docs

* update docs
											
										
										
											2024-04-28 18:51:47 +08:00
-												[Feature] Upgrade the needle-in-a-haystack experiment to Needlebench (#913)

* add needlebench

* simplify needlebench 32k, 128k, 200k for eval

* update act prompt

* fix bug in needlebench summarizer

* add needlebench intro, fix summarizer

* lint summarizer

* fix linting error

* move readme.md

* update readme for needlebench

* update docs of needlebench

* simplify needlebench summarizers
											
										
										
											2024-03-04 11:10:52 +08:00
+								    # eval Ancestral Tracing Challenge(ATC)
-												[Docs] fix needlebench examples

											
										
										
											2025-04-27 16:36:59 +08:00
+								    # from .datasets.needlebench.atc.atc_0shot_nocot_2_power_en import needlebench_datasets
 								    # ATC use default summarizer thus no need to import summarizer
-												[Feature] Upgrade the needle-in-a-haystack experiment to Needlebench (#913)

* add needlebench

* simplify needlebench 32k, 128k, 200k for eval

* update act prompt

* fix bug in needlebench summarizer

* add needlebench intro, fix summarizer

* lint summarizer

* fix linting error

* move readme.md

* update readme for needlebench

* update docs of needlebench

* simplify needlebench summarizers
											
										
										
											2024-03-04 11:10:52 +08:00
 								datasets = sum([v for k, v in locals().items() if ('datasets' in k)], [])
-												[Doc] Update NeedleInAHaystack Docs (#1102)

* update NeedleInAHaystack Test Docs

* update docs
											
										
										
											2024-04-28 18:51:47 +08:00
+								for m in internlm2_chat_7b:
-												[Docs] fix needlebench examples

											
										
										
											2025-04-27 16:36:59 +08:00
+								    m['max_seq_len'] = 32768 # 保证InternLM2-7B模型能接收到完整的长文本，其他模型需要根据各自支持的最大序列长度修改。
 								    m['max_out_len'] = 4096
-												[Feature] Upgrade the needle-in-a-haystack experiment to Needlebench (#913)

* add needlebench

* simplify needlebench 32k, 128k, 200k for eval

* update act prompt

* fix bug in needlebench summarizer

* add needlebench intro, fix summarizer

* lint summarizer

* fix linting error

* move readme.md

* update readme for needlebench

* update docs of needlebench

* simplify needlebench summarizers
											
										
										
											2024-03-04 11:10:52 +08:00
-												[Doc] Update NeedleInAHaystack Docs (#1102)

* update NeedleInAHaystack Test Docs

* update docs
											
										
										
											2024-04-28 18:51:47 +08:00
+								models = internlm2_chat_7b
-												[Feature] Upgrade the needle-in-a-haystack experiment to Needlebench (#913)

* add needlebench

* simplify needlebench 32k, 128k, 200k for eval

* update act prompt

* fix bug in needlebench summarizer

* add needlebench intro, fix summarizer

* lint summarizer

* fix linting error

* move readme.md

* update readme for needlebench

* update docs of needlebench

* simplify needlebench summarizers
											
										
										
											2024-03-04 11:10:52 +08:00
-												[Docs] fix needlebench examples

											
										
										
											2025-04-27 16:36:59 +08:00
+								work_dir = './outputs/needlebench'