[Feature] Add ReasonBench(Internal) dataset (#577)

* [Feature] Add reasonbench dataset * add configs for supporting generative inference & merge datasets in the same category * modify config filename to prompt version * fix codes to meet pre-commit requirements * lint the code to meet pre-commit requirements * Align Load_data Sourcecode Briefly * fix bugs * reduce code redundancy
2025-05-30 16:03:24 +08:00 · 2023-12-20 17:57:42 +08:00 · 2023-12-20 17:57:42 +08:00 · b35d991786
commit b35d991786
parent 76a95e9e81
7 changed files with 325 additions and 0 deletions
--- a/configs/datasets/ReasonBench/reasonbench_gen.py
+++ b/configs/datasets/ReasonBench/reasonbench_gen.py
@ -0,0 +1,4 @@
 from mmengine.config import read_base
 with read_base():
    from .reasonbench_gen_d15233 import reasonbench_datasets
--- a/configs/datasets/ReasonBench/reasonbench_gen_d15233.py
+++ b/configs/datasets/ReasonBench/reasonbench_gen_d15233.py
@ -0,0 +1,140 @@
 from opencompass.openicl.icl_prompt_template import PromptTemplate
 from opencompass.openicl.icl_retriever import FixKRetriever
 from opencompass.openicl.icl_inferencer import GenInferencer
 from opencompass.openicl.icl_evaluator import AccEvaluator
 from opencompass.utils.text_postprocessors import first_capital_postprocess
 from opencompass.datasets.reasonbench import ReasonBenchDataset
 reasonbench_eval_cfg = dict(
    evaluator=dict(type=AccEvaluator),
    pred_postprocessor=dict(type=first_capital_postprocess)
 )
 reader_cfgs = []
 for i in range(2, 5):
    choices = ["A", "B", "C", "D"][:i]
    reader_cfgs.append(dict(
    input_columns=["prompt_ppl"],
    output_column="label_ppl")
    )
 infer_cfg=dict(
    ice_template=dict(
        type=PromptTemplate,
        template=dict(
            begin="</E>",
            round=[
                dict(
                    role="HUMAN",
                    prompt="</E>{prompt_ppl}"
                ),
                dict(role="BOT", prompt="Answer: {label_ppl}"),
            ]),
        ice_token="</E>",
        ),
    retriever=dict(type=FixKRetriever, fix_id_list=[]),
    inferencer=dict(type=GenInferencer)
 )
 CausalReasoningDataset = [
    dict(
        abbr="reasonbench-causal",
        type=ReasonBenchDataset,
        path="data/reasonbench/causal.jsonl",
        reader_cfg=reader_cfgs[0],
        infer_cfg=infer_cfg,
        eval_cfg=reasonbench_eval_cfg),
 ]
 CommonsenseReasoningDataset = [
    dict(
        abbr="reasonbench-commonsense",
        type=ReasonBenchDataset,
        path="data/reasonbench/commonsense.jsonl",
        reader_cfg=reader_cfgs[1],
        infer_cfg=infer_cfg,
        eval_cfg=reasonbench_eval_cfg),
 ]
 AbductiveReasoningDataset = [
    dict(
        abbr="reasonbench-abductive",
        type=ReasonBenchDataset,
        path="data/reasonbench/abductive.jsonl",
        reader_cfg=reader_cfgs[0],
        infer_cfg=infer_cfg,
        eval_cfg=reasonbench_eval_cfg),
 ]
 DeductiveReasoningDataset = [
    dict(
        abbr="reasonbench-deductive",
        type=ReasonBenchDataset,
        path="data/reasonbench/deductive.jsonl",
        reader_cfg=reader_cfgs[1],
        infer_cfg=infer_cfg,
        eval_cfg=reasonbench_eval_cfg),
 ]
 InductiveReasoningDataset = [
    dict(
        abbr="reasonbench-inductive",
        type=ReasonBenchDataset,
        path="data/reasonbench/inductive.jsonl",
        reader_cfg=reader_cfgs[0],
        infer_cfg=infer_cfg,
        eval_cfg=reasonbench_eval_cfg),
 ]
 SymbolicReasoningDataset = [
    dict(
        abbr="reasonbench-symbolic",
        type=ReasonBenchDataset,
        path="data/reasonbench/symbolic.jsonl",
        reader_cfg=reader_cfgs[2],
        infer_cfg=infer_cfg,
        eval_cfg=reasonbench_eval_cfg),
 ]
 CLEVA_CommonsenseReasoningDataset = [
    dict(
        abbr="reasonbench-cleva_commonsense",
        type=ReasonBenchDataset,
        path="data/reasonbench/cleva_commonsense.jsonl",
        reader_cfg=reader_cfgs[1],
        infer_cfg=infer_cfg,
        eval_cfg=reasonbench_eval_cfg),
 ]
 CLEVA_DeductiveReasoningDataset = [
    dict(
        abbr="reasonbench-cleva_deductive",
        type=ReasonBenchDataset,
        path="data/reasonbench/cleva_deductive.jsonl",
        reader_cfg=reader_cfgs[1],
        infer_cfg=infer_cfg,
        eval_cfg=reasonbench_eval_cfg),
 ]
 CLEVA_InductiveReasoningDataset = [
    dict(
        abbr="reasonbench-cleva_inductive",
        type=ReasonBenchDataset,
        path="data/reasonbench/cleva_inductive.jsonl",
        reader_cfg=reader_cfgs[0],
        infer_cfg=infer_cfg,
        eval_cfg=reasonbench_eval_cfg),
 ]
 reasonbench_datasets = \
    CLEVA_CommonsenseReasoningDataset + \
    CLEVA_DeductiveReasoningDataset + \
    CLEVA_InductiveReasoningDataset + \
    CausalReasoningDataset + \
    CommonsenseReasoningDataset + \
    AbductiveReasoningDataset + \
    DeductiveReasoningDataset + \
    InductiveReasoningDataset + \
    SymbolicReasoningDataset
--- a/configs/datasets/ReasonBench/reasonbench_ppl.py
+++ b/configs/datasets/ReasonBench/reasonbench_ppl.py
@ -0,0 +1,4 @@
 from mmengine.config import read_base
 with read_base():
    from .reasonbench_ppl_b4a005 import reasonbench_datasets
--- a/configs/datasets/ReasonBench/reasonbench_ppl_b4a005.py
+++ b/configs/datasets/ReasonBench/reasonbench_ppl_b4a005.py
@ -0,0 +1,136 @@
 from opencompass.openicl.icl_prompt_template import PromptTemplate
 from opencompass.openicl.icl_retriever import ZeroRetriever
 from opencompass.openicl.icl_inferencer import PPLInferencer
 from opencompass.openicl.icl_evaluator import AccEvaluator
 from opencompass.datasets.reasonbench import ReasonBenchDataset
 reasonbench_eval_cfg = dict(
    evaluator=dict(type=AccEvaluator),
    pred_role="BOT",
 )
 reader_cfgs, infer_cfgs = [], []
 for i in range(2, 5):
    choices = ["A", "B", "C", "D"][:i]
    reader_cfgs.append(dict(
    input_columns=["prompt_ppl"] + choices + ["choices"],
    output_column="label")
    )
    infer_cfgs.append(dict(
    prompt_template=dict(
        type=PromptTemplate,
        template={
            str(id):
            dict(
                round=[
                    dict(role="HUMAN", prompt="{prompt_ppl}Answer:"),
                    dict(role="BOT", prompt=f"{choice}")
                ], )
            for id, choice in enumerate(choices)
        }),
    retriever=dict(type=ZeroRetriever),
    inferencer=dict(type=PPLInferencer)
    ))
 CausalReasoningDataset = [
    dict(
        abbr="reasonbench-causal",
        type=ReasonBenchDataset,
        path="data/reasonbench/causal.jsonl",
        reader_cfg=reader_cfgs[0],
        infer_cfg=infer_cfgs[0],
        eval_cfg=reasonbench_eval_cfg),
 ]
 CommonsenseReasoningDataset = [
    dict(
        abbr="reasonbench-commonsense",
        type=ReasonBenchDataset,
        path="data/reasonbench/commonsense.jsonl",
        reader_cfg=reader_cfgs[1],
        infer_cfg=infer_cfgs[1],
        eval_cfg=reasonbench_eval_cfg),
 ]
 AbductiveReasoningDataset = [
    dict(
        abbr="reasonbench-abductive",
        type=ReasonBenchDataset,
        path="data/reasonbench/abductive.jsonl",
        reader_cfg=reader_cfgs[0],
        infer_cfg=infer_cfgs[0],
        eval_cfg=reasonbench_eval_cfg),
 ]
 DeductiveReasoningDataset = [
    dict(
        abbr="reasonbench-deductive",
        type=ReasonBenchDataset,
        path="data/reasonbench/deductive.jsonl",
        reader_cfg=reader_cfgs[1],
        infer_cfg=infer_cfgs[1],
        eval_cfg=reasonbench_eval_cfg),
 ]
 InductiveReasoningDataset = [
    dict(
        abbr="reasonbench-inductive",
        type=ReasonBenchDataset,
        path="data/reasonbench/inductive.jsonl",
        reader_cfg=reader_cfgs[0],
        infer_cfg=infer_cfgs[0],
        eval_cfg=reasonbench_eval_cfg),
 ]
 SymbolicReasoningDataset = [
    dict(
        abbr="reasonbench-symbolic",
        type=ReasonBenchDataset,
        path="data/reasonbench/symbolic.jsonl",
        reader_cfg=reader_cfgs[2],
        infer_cfg=infer_cfgs[2],
        eval_cfg=reasonbench_eval_cfg),
 ]
 CLEVA_CommonsenseReasoningDataset = [
    dict(
        abbr="reasonbench-cleva_commonsense",
        type=ReasonBenchDataset,
        path="data/reasonbench/cleva_commonsense.jsonl",
        reader_cfg=reader_cfgs[1],
        infer_cfg=infer_cfgs[1],
        eval_cfg=reasonbench_eval_cfg),
 ]
 CLEVA_DeductiveReasoningDataset = [
    dict(
        abbr="reasonbench-cleva_deductive",
        type=ReasonBenchDataset,
        path="data/reasonbench/cleva_deductive.jsonl",
        reader_cfg=reader_cfgs[1],
        infer_cfg=infer_cfgs[1],
        eval_cfg=reasonbench_eval_cfg),
 ]
 CLEVA_InductiveReasoningDataset = [
    dict(
        abbr="reasonbench-cleva_inductive",
        type=ReasonBenchDataset,
        path="data/reasonbench/cleva_inductive.jsonl",
        reader_cfg=reader_cfgs[0],
        infer_cfg=infer_cfgs[0],
        eval_cfg=reasonbench_eval_cfg),
 ]
 reasonbench_datasets = \
    CLEVA_CommonsenseReasoningDataset + \
    CLEVA_DeductiveReasoningDataset + \
    CLEVA_InductiveReasoningDataset + \
    CausalReasoningDataset + \
    CommonsenseReasoningDataset + \
    AbductiveReasoningDataset + \
    DeductiveReasoningDataset + \
    InductiveReasoningDataset + \
    SymbolicReasoningDataset
--- a/opencompass/datasets/init.py
+++ b/opencompass/datasets/init.py
@ -68,6 +68,7 @@ from .qasper import *  # noqa: F401, F403
 from .qaspercut import *  # noqa: F401, F403
 from .race import *  # noqa: F401, F403
 from .realtoxicprompts import *  # noqa: F401, F403
 from .reasonbench import ReasonBenchDataset  # noqa: F401, F403
 from .record import *  # noqa: F401, F403
 from .safety import *  # noqa: F401, F403
 from .scibench import ScibenchDataset, scibench_postprocess  # noqa: F401, F403
--- a/opencompass/datasets/reasonbench/ReasonBenchDataset.py
+++ b/opencompass/datasets/reasonbench/ReasonBenchDataset.py
@ -0,0 +1,39 @@
 import json
 from datasets import Dataset
 from opencompass.registry import LOAD_DATASET
 from ..base import BaseDataset
@LOAD_DATASET.register_module()
 class ReasonBenchDataset(BaseDataset):
    @staticmethod
    def load(path: str):
        raw_data = []
        with open(path, 'r', encoding='utf-8') as f:
            for line in f:
                line = json.loads(line)
                prompt = line['prompt']
                prompt_ppl = line['prompt_ppl']
                label = line['label']
                label_ppl = line['label_ppl']
                choices = line['choices']
                tag = line['tag']
                source = line['source']
                option_content = {choice: line[choice] for choice in choices}
                data = {
                    'prompt': prompt,
                    'label': label,
                    'prompt_ppl': prompt_ppl,
                    'label_ppl': str(label_ppl)[0],
                    'choices': choices,
                    'tag': tag,
                    'source': source,
                }
                data.update(option_content)
                raw_data.append(data)
        dataset = Dataset.from_list(raw_data)
        return dataset
--- a/opencompass/datasets/reasonbench/init.py
+++ b/opencompass/datasets/reasonbench/init.py
@ -0,0 +1 @@
 from .ReasonBenchDataset import *  # noqa: F401, F403
		`@ -0,0 +1 @@`
							`from .ReasonBenchDataset import * # noqa: F401, F403`