OpenCompass/configs/eval_compassbench_v1_3_subjective.py

from mmengine.config import read_base

with read_base():
    from .datasets.subjective.compassbench.compassbench_checklist import (
        checklist_datasets,
    )
from opencompass.partitioners import NaivePartitioner, SizePartitioner
from opencompass.partitioners.sub_naive import SubjectiveNaivePartitioner
from opencompass.runners import LocalRunner
from opencompass.tasks import OpenICLInferTask
from opencompass.tasks.subjective_eval import SubjectiveEvalTask
# from opencompass.summarizers import SubjectiveSummarizer
from opencompass.models import HuggingFacewithChatTemplate
from opencompass.models import TurboMindModelwithChatTemplate
api_meta_template = dict(
    round=[
        dict(role='HUMAN', api_role='HUMAN'),
        dict(role='BOT', api_role='BOT', generate=True),
    ]
)
models = [
    # dict(
    #     type=HuggingFacewithChatTemplate,
    #     abbr="internlm2-chat-1.8b",
    #     path="internlm/internlm2-chat-1_8b-sft",
    #     max_out_len=1024,
    #     batch_size=8,
    #     run_cfg=dict(num_gpus=1),
    # ),
    # dict(
    #     type=HuggingFacewithChatTemplate,
    #     abbr="gpt4o",
    #     path="internlm/internlm2-chat-1_8b-sft",
    #     max_out_len=1024,
    #     batch_size=8,
    #     run_cfg=dict(num_gpus=1),
    # ),
    dict(
        type=TurboMindModelwithChatTemplate,
        abbr='internlm2-chat-1.8b-turbomind',
        path='internlm/internlm2-chat-1_8b',
        engine_config=dict(session_len=7168, max_batch_size=16, tp=1),
        gen_config=dict(top_k=1000, temperature=1, top_p=0.9, max_new_tokens=2048),
        max_seq_len=7168,
        max_out_len=2048,
        batch_size=16,
        run_cfg=dict(num_gpus=1),
    ),
    dict(
        type=TurboMindModelwithChatTemplate,
        abbr='judgellm',
        path='internlm/internlm2-chat-1_8b',
        engine_config=dict(session_len=7168, max_batch_size=16, tp=1),
        gen_config=dict(top_k=1000, temperature=1, top_p=0.9, max_new_tokens=2048),
        max_seq_len=7168,
        max_out_len=2048,
        batch_size=16,
        run_cfg=dict(num_gpus=1),
    )
]
# -------------Inference Stage ----------------------------------------
# For subjective evaluation, we often set do sample for models
datasets = [*checklist_datasets]
infer = dict(
    partitioner=dict(type=NaivePartitioner),
    runner=dict(type=LocalRunner, max_num_workers=16, task=dict(type=OpenICLInferTask)),
)
# -------------Evalation Stage ----------------------------------------
## ------------- JudgeLLM Configuration
judge_models = [models[0]]
## ------------- Evaluation Configuration
eval = dict(
    partitioner=dict(
        type=SubjectiveNaivePartitioner,
        models=models,
        judge_models=judge_models,
    ),
    runner=dict(
        type=LocalRunner, max_num_workers=16, task=dict(type=SubjectiveEvalTask)
    ),
)
# TODO summarizer to be implemented
# summarizer = dict(type=SubjectiveSummarizer, function='subjective')
work_dir = 'outputs/debug_checklist/'
[Feature] CompassBench v1_3 subjective evaluation (#1341) * stash files * compassbench subjective evaluation added * evaluation update * remove unneeded content * fix lint * update docs * Update lint * Update --------- Co-authored-by: zhangsongyang <zhangsongyang@pjlab.org.cn> 2024-07-19 23:12:23 +08:00			`from mmengine.config import read_base`

			`with read_base():`
			`from .datasets.subjective.compassbench.compassbench_checklist import (`
			`checklist_datasets,`
			`)`
			`from opencompass.partitioners import NaivePartitioner, SizePartitioner`
			`from opencompass.partitioners.sub_naive import SubjectiveNaivePartitioner`
			`from opencompass.runners import LocalRunner`
			`from opencompass.tasks import OpenICLInferTask`
			`from opencompass.tasks.subjective_eval import SubjectiveEvalTask`
			`# from opencompass.summarizers import SubjectiveSummarizer`
			`from opencompass.models import HuggingFacewithChatTemplate`
			`from opencompass.models import TurboMindModelwithChatTemplate`
			`api_meta_template = dict(`
			`round=[`
			`dict(role='HUMAN', api_role='HUMAN'),`
			`dict(role='BOT', api_role='BOT', generate=True),`
			`]`
			`)`
			`models = [`
			`# dict(`
			`# type=HuggingFacewithChatTemplate,`
			`# abbr="internlm2-chat-1.8b",`
			`# path="internlm/internlm2-chat-1_8b-sft",`
			`# max_out_len=1024,`
			`# batch_size=8,`
			`# run_cfg=dict(num_gpus=1),`
			`# ),`
			`# dict(`
			`# type=HuggingFacewithChatTemplate,`
			`# abbr="gpt4o",`
			`# path="internlm/internlm2-chat-1_8b-sft",`
			`# max_out_len=1024,`
			`# batch_size=8,`
			`# run_cfg=dict(num_gpus=1),`
			`# ),`
			`dict(`
			`type=TurboMindModelwithChatTemplate,`
			`abbr='internlm2-chat-1.8b-turbomind',`
			`path='internlm/internlm2-chat-1_8b',`
			`engine_config=dict(session_len=7168, max_batch_size=16, tp=1),`
			`gen_config=dict(top_k=1000, temperature=1, top_p=0.9, max_new_tokens=2048),`
			`max_seq_len=7168,`
			`max_out_len=2048,`
			`batch_size=16,`
			`run_cfg=dict(num_gpus=1),`
			`),`
			`dict(`
			`type=TurboMindModelwithChatTemplate,`
			`abbr='judgellm',`
			`path='internlm/internlm2-chat-1_8b',`
			`engine_config=dict(session_len=7168, max_batch_size=16, tp=1),`
			`gen_config=dict(top_k=1000, temperature=1, top_p=0.9, max_new_tokens=2048),`
			`max_seq_len=7168,`
			`max_out_len=2048,`
			`batch_size=16,`
			`run_cfg=dict(num_gpus=1),`
			`)`
			`]`
			`# -------------Inference Stage ----------------------------------------`
			`# For subjective evaluation, we often set do sample for models`
			`datasets = [*checklist_datasets]`
			`infer = dict(`
			`partitioner=dict(type=NaivePartitioner),`
			`runner=dict(type=LocalRunner, max_num_workers=16, task=dict(type=OpenICLInferTask)),`
			`)`
			`# -------------Evalation Stage ----------------------------------------`
			`## ------------- JudgeLLM Configuration`
			`judge_models = [models[0]]`
			`## ------------- Evaluation Configuration`
			`eval = dict(`
			`partitioner=dict(`
			`type=SubjectiveNaivePartitioner,`
			`models=models,`
			`judge_models=judge_models,`
			`),`
			`runner=dict(`
			`type=LocalRunner, max_num_workers=16, task=dict(type=SubjectiveEvalTask)`
			`),`
			`)`
			`# TODO summarizer to be implemented`
			`# summarizer = dict(type=SubjectiveSummarizer, function='subjective')`
			`work_dir = 'outputs/debug_checklist/'`