Merge d26e808c9f into 8aa18df368

2025-05-30 16:03:24 +08:00 · 2025-05-12 12:58:47 +08:00 · 2025-05-12 12:58:47 +08:00 · e693952b32
commit e693952b32
parent 8aa18df368 d26e808c9f
7 changed files with 479 additions and 0 deletions
--- a/dataset-index.yml
+++ b/dataset-index.yml
@ -859,6 +859,11 @@
    paper: https://arxiv.org/pdf/2407.13168
    configpath: opencompass/configs/datasets/scicode/scicode_gen.py
    configpath_llmjudge: ''
 - seedbench:
    name: SeedBench
    category: Knowledge
    paper: ''
    configpath: opencompass/configs/datasets/SeedBench/seedbench_gen.py
 - simpleqa:
    name: SimpleQA
    category: Knowledge
--- a/opencompass/configs/datasets/SeedBench/README.md
+++ b/opencompass/configs/datasets/SeedBench/README.md
@ -0,0 +1,79 @@
 ## 🌾 About SeedBench
 **SeedBench** is the first multi-task benchmark designed to evaluate large language models (LLMs) in seed science, focusing on seed breeding. This repository includes the dataset, evaluation code, and documentation to support research in this domain.
 SeedBench assesses LLMs across three core seed breeding stages:
 - **Gene Information Retrieval**
 - **Gene Function and Regulation Analysis**
 - **Variety Breeding with Agronomic Trait Optimization**
 Built with domain experts, SeedBench features **2,264 expert-validated questions** across 11 task types and 10 subcategories, initially targeting rice breeding. Future updates will include other crops like maize, soybean, and wheat.
 ---
 ## 🔎 Dataset Details
 - **Corpus**: 308,727 publications cleaned to 1.1 billion tokens; 279 segments from 113 documents.
 - **Questions**: 2,264 across 11 task types, bilingual (English/Chinese), expert-validated.
 - **Focus**: Rice breeding as a representative case.
  **Types and metrics:**
  <div align="center">
  | Type ID | Question Type              | Metric   | Count |
  |---------|----------------------------|----------|-------|
  | **Q&A** |                            |          |       |
  | QA-1    | Multiple Choice            | Accuracy | 200   |
  | QA-2    | Multiple Answer            | Macro-F1 | 187   |
  | QA-3    | Fill-in-the-Blank          | ROUGE-L  | 224   |
  | QA-4    | Generation                 | ROUGE-L  | 242   |
  | **Summarization** |                  |          |       |
  | SUM-1   | Simple Summarization       | ROUGE-L  | 225   |
  | SUM-2   | Key Information Extraction | ROUGE-L  | 225   |
  | **Reading Comprehension** |          |          |       |
  | RC-1    | Multiple Choice            | Accuracy | 113   |
  | RC-2    | Multiple Answer            | Macro-F1 | 108   |
  | RC-3    | Fill-in-the-Blank          | ROUGE-L  | 221   |
  | RC-4    | Generation                 | ROUGE-L  | 240   |
  | RC-5    | Subcategory Classification | Accuracy | 279   |
  </div>
 ---
 ## 📂 Dataset Links
 - [SeedBench on Github](https://github.com/open-sciencelab/SeedBench)
 - [SeedBench on Hugging Face](https://huggingface.co/datasets/yj12869741/SeedBench)
 - [SeedBench on ModelScope](https://www.modelscope.cn/datasets/y12869741/SeedBench/summary)
 ---
 ## ☀️ Key Results
 We evaluated 26 LLMs, including proprietary, open-source, and domain-specific models. Highlights:
 ### Performance by Question Type
 - **Top Performers**: DeepSeek-V3 (68.37), GPT-4 (67.88).
 ### Performance by Task Types
 | Model            | QA-1 | QA-2 | QA-3 | QA-4 | SUM-1 | SUM-2 | RC-1 | RC-2 | RC-3 | RC-4 | RC-5 | Avg  |
 |------------------|------|------|------|------|-------|-------|------|------|------|------|------|------|
 | GPT-4           | 60.50| 73.87| 21.35| 36.07| 58.73 | 62.89 | 100.00| 96.44| 87.86| 62.29| 86.74| 67.88|
 | DeepSeek-V3     | 72.50| 79.84| 29.29| 40.63| 48.06 | 54.67 | 100.00| 97.22| 87.89| 55.19| 86.74| 68.37|
 | Qwen2-72B       | 59.50| 75.98| 19.55| 31.62| 31.08 | 63.09 | 99.12 | 94.24| 72.20| 51.58| 89.96| 62.54|
 ### Performance by Subcategory
 | Model             | C1   | C2   | C3   | C4   | C5   | C6   | C7   | C8   | C9   | C10  | Avg  |
 |-------------------|------|------|------|------|------|------|------|------|------|------|------|
 | GPT-4            | 59.59| 60.55| 76.32| 61.16| 56.34| 59.35| 63.67| 64.74| 60.65| 67.66| 62.06|
 | DeepSeek-V3-671B | 56.03| 62.42| 74.81| 63.17| 55.23| 58.84| 68.23| 69.04| 66.46| 68.48| 63.30|
 | Qwen2-72B        | 51.16| 58.10| 74.07| 59.72| 51.58| 57.76| 58.85| 61.63| 56.69| 59.11| 57.62|
 - **Top Performers**: DeepSeek-V3-671B (63.30), GPT-4 (62.06).
--- a/opencompass/configs/datasets/SeedBench/seedbench_gen.py
+++ b/opencompass/configs/datasets/SeedBench/seedbench_gen.py
@ -0,0 +1,5 @@
 from mmengine.config import read_base
 with read_base():
    # Default use LLM as a judge
    from .seedbench_gen_5d5ea1 import seedbench_datasets  # noqa: F401, F403
--- a/opencompass/configs/datasets/SeedBench/seedbench_gen_5d5ea1.py
+++ b/opencompass/configs/datasets/SeedBench/seedbench_gen_5d5ea1.py
@ -0,0 +1,74 @@
 from opencompass.openicl.icl_prompt_template import PromptTemplate
 from opencompass.openicl.icl_retriever import ZeroRetriever
 from opencompass.openicl.icl_inferencer import GenInferencer
 from opencompass.openicl.icl_evaluator import AccEvaluator, JiebaRougeEvaluator, RougeEvaluator
 from opencompass.datasets import SeedBenchDataset, F1ScoreEvaluator, my_multiple_select_postprocess, AverageRougeScoreEvaluator
 from opencompass.utils.text_postprocessors import first_option_postprocess
 agri_reader_cfg = dict(
    input_columns=['instruction', 'question'],
    output_column='answer'
    )
 agri_infer_cfg = dict(
    prompt_template=dict(
        type=PromptTemplate,
        template='{instruction}\n{question}\n'
    ),
    retriever=dict(type=ZeroRetriever),
    inferencer=dict(type=GenInferencer)
 )
 default_dataset_cfg = {
    'type': SeedBenchDataset,
    'path': 'json',
    'reader_cfg': agri_reader_cfg,
    'infer_cfg': agri_infer_cfg,
 }
 dataset_configs = [
    # 1-n
    {'abbr': 'seedbench_1-1', 'data_file': '1-1.json', 'evaluator': 'AccEvaluator', 
     'pred_postprocessor': dict(type=first_option_postprocess, options='ABCD')},
    {'abbr': 'seedbench_1-2', 'data_file': '1-2.json', 'evaluator': 'F1ScoreEvaluator',
     'pred_postprocessor': dict(type=my_multiple_select_postprocess)},
    # {'abbr': 'seedbench_1-3_em', 'data_file': '1-3.json', 'evaluator': 'ExactMatchScoreEvaluator'},
    {'abbr': 'seedbench_1-3', 'data_file': '1-3.json', 'evaluator': 'AverageRougeScoreEvaluator'},
    {'abbr': 'seedbench_1-4', 'data_file': '1-4.json', 'evaluator': 'RougeEvaluator'},
    # # 2-n
    {'abbr': 'seedbench_2-1', 'data_file': '2-1.json', 'evaluator': 'RougeEvaluator'},
    {'abbr': 'seedbench_2-2', 'data_file': '2-2.json', 'evaluator': 'RougeEvaluator'},
    # 3-n
    {'abbr': 'seedbench_3-1', 'data_file': '3-1.json', 'evaluator': 'AccEvaluator',
    'pred_postprocessor': dict(type=first_option_postprocess, options='ABCD')},
    {'abbr': 'seedbench_3-2', 'data_file': '3-2.json', 'evaluator': 'F1ScoreEvaluator',
     'pred_postprocessor': dict(type=my_multiple_select_postprocess)},
    # {'abbr': 'seedbench_3-3_em', 'data_file': '3-3.json', 'evaluator': 'ExactMatchScoreEvaluator'},
    {'abbr': 'seedbench_3-3', 'data_file': '3-3.json', 'evaluator': 'AverageRougeScoreEvaluator'},
    {'abbr': 'seedbench_3-4', 'data_file': '3-4.json', 'evaluator': 'RougeEvaluator'},
    {'abbr': 'seedbench_3-5', 'data_file': '3-5.json', 'evaluator': 'AccScoreStr_Evaluator'},
 ]
 seedbench_datasets = []
 for stage in ['zero-shot','one-shot']:
    for config in dataset_configs:
        eval_cfg = dict(
            evaluator=dict(type=config['evaluator'])
        )
        if 'pred_postprocessor' in config:
            eval_cfg['pred_postprocessor'] = config['pred_postprocessor']
        data_file = f"{stage}/{config['data_file']}"
        abbr_name = f"{config['abbr']}_{stage}"
        seedbench_datasets.append(
            dict(
                type=SeedBenchDataset,
                abbr=abbr_name,
                data_files=data_file,
                path='opencompass/seedbench',
                reader_cfg=agri_reader_cfg,
                infer_cfg=agri_infer_cfg,
                eval_cfg=eval_cfg
            )
        )
--- a/opencompass/datasets/SeedBench.py
+++ b/opencompass/datasets/SeedBench.py
@ -0,0 +1,309 @@
 import random
 import re
 from os import environ
 from typing import List
 import datasets
 import jieba
 import numpy as np
 from rouge_chinese import Rouge
 from opencompass.openicl.icl_evaluator.icl_base_evaluator import BaseEvaluator
 from opencompass.registry import (ICL_EVALUATORS, LOAD_DATASET,
                                  TEXT_POSTPROCESSORS)
 from opencompass.utils import get_data_path
 from .base import BaseDataset
@LOAD_DATASET.register_module()
 class SeedBenchDataset(BaseDataset):
    @staticmethod
    def load(data_files: str,
             path: str,
             split: str = None,
             **kwargs) -> datasets.Dataset:
        path = get_data_path(path)
        if environ.get('DATASET_SOURCE') == 'ModelScope':
            from modelscope import MsDataset
            dataset = MsDataset.load(path,
                                     subset_name='default',
                                     split=split,
                                     data_files=data_files,
                                     **kwargs)
        else:
            dataset = datasets.load_dataset(path,
                                            data_files=data_files,
                                            **kwargs)
        if split is None:
            split = list(dataset.keys())[0]
        if split not in dataset:
            raise ValueError(f"Split '{split}' not found. \
                    Available splits: {list(dataset.keys())}")
        return dataset[split]
 class F1Evaluator(BaseEvaluator):
    """F1 Score evaluator for multiple choice questions.
    Args:
        seed (int): Seed for randomness, ensuring reproducibility.
        Defaults to 0.
    """
    def __init__(self, seed: int = 0) -> None:
        self.seed = seed
        super().__init__()
    def _preprocess(self, predictions: List, references: List) -> dict:
        return {
            'predictions': predictions,
            'references': references,
        }
    def _postprocess(self, scores: dict) -> dict:
        return scores
    def score(self, predictions: List, references: List) -> dict:
        random_state = random.getstate()
        np_random_state = np.random.get_state()
        details = []
        random.seed(self.seed)
        np.random.seed(self.seed)
        if len(predictions) != len(references):
            return {
                'error':
                'predictions and references have different '
                f'length. len(predictions): {len(predictions)}, '
                f'len(references): {len(references)}'
            }
        true_positives = 0
        false_positives = 0
        false_negatives = 0
        for hyp, ref in zip(predictions, references):
            hyp = re.sub(r'[^A-Da-d,]+', '', hyp.lower())
            ref = re.sub(r'[^A-Da-d,]+', '', ref.lower())
            ref_set = set(ref.split(','))
            hyp_set = set(hyp.split(','))
            ref_set = {r.strip() for r in ref_set}
            hyp_set = {h.strip() for h in hyp_set}
            sample_tp = len(hyp_set.intersection(ref_set))
            sample_fp = len(hyp_set - ref_set)
            sample_fn = len(ref_set - hyp_set)
            true_positives += sample_tp
            false_positives += sample_fp
            false_negatives += sample_fn
            sample_precision = sample_tp / (sample_tp + sample_fp) if (
                sample_tp + sample_fp) > 0 else 0
            sample_recall = sample_tp / (sample_tp + sample_fn) if (
                sample_tp + sample_fn) > 0 else 0
            sample_f1 = (2 * sample_precision * sample_recall) / (
                sample_precision + sample_recall) if (sample_precision +
                                                      sample_recall) > 0 else 0
            details.append({
                'pred': hyp,
                'answer': ref,
                'correct': sample_f1 * 100
            })
        precision = true_positives / (true_positives + false_positives) if (
            true_positives + false_positives) > 0 else 0
        recall = true_positives / (true_positives + false_negatives) if (
            true_positives + false_negatives) > 0 else 0
        f1 = (2 * precision *
              recall) / (precision + recall) if (precision + recall) > 0 else 0
        result = {
            'F1Score': f1 * 100,  # 总体 F1 分数
            'details': details
        }
        random.setstate(random_state)
        np.random.set_state(np_random_state)
        return self._postprocess(result)
@ICL_EVALUATORS.register_module()
 class F1ScoreEvaluator(F1Evaluator):
    """F1 Score evaluator for multiple choice questions."""
    def __init__(self) -> None:
        super().__init__()
 # 定义自己的多选后处理逻辑（输入回答为：ABC ---> A,B,C)
@TEXT_POSTPROCESSORS.register_module('my_multiple_select_postprocess')
 def my_multiple_select_postprocess(text: str) -> str:
    selected_options = [t for t in text if t.isupper()]
    selected_options = sorted(set(selected_options))
    res = ', '.join(selected_options)
    return res
 class AverageRougeEvaluator(BaseEvaluator):
    """Average Rouge Score evaluator for fill-in-the-blank tasks.
    Args:
        seed (int): Seed for randomness, ensuring reproducibility.
        Defaults to 0.
    """
    def __init__(self, seed: int = 0) -> None:
        self.seed = seed
        super().__init__()
    def _preprocess(self, predictions: List, references: List) -> dict:
        pattern = r'(正确答案[:：]|correct answer[:：])'
        cleaned_predictions = [
            re.sub(pattern, '', pred, flags=re.IGNORECASE).strip()
            for pred in predictions
        ]
        return {
            'predictions': cleaned_predictions,
            'references': references,
        }
    def _postprocess(self, scores: dict) -> dict:
        return scores
    def score(self, predictions: List, references: List) -> dict:
        def rouge_score(hyps, refs):
            assert (len(hyps) == len(refs))
            hyps = [' '.join(jieba.cut(h)) for h in hyps]
            hyps = [h if h.strip() != '' else '无内容' for h in hyps]
            refs = [' '.join(jieba.cut(r)) for r in refs]
            rouge_scores = Rouge().get_scores(hyps, refs)
            rouge_ls = [score['rouge-l']['f'] for score in rouge_scores]
            average_rouge_l = sum(rouge_ls) / len(rouge_ls)
            return {'score': average_rouge_l * 100}
        random_state = random.getstate()
        np_random_state = np.random.get_state()
        details = []
        random.seed(self.seed)
        np.random.seed(self.seed)
        if len(predictions) != len(references):
            return {
                'error':
                'predictions and references have different '
                f'length. len(predictions): {len(predictions)}, '
                f'len(references): {len(references)}'
            }
        preprocessed_data = self._preprocess(predictions, references)
        hyps, refs = preprocessed_data['predictions'], preprocessed_data[
            'references']
        scores = []
        for i in range(len(hyps)):
            refs[i] = refs[i].replace('，', ',')
            word_level_refs = refs[i].split(',')
            word_level_refs = [r.strip() for r in word_level_refs]
            if len(word_level_refs) == 1:
                word_level_hyps = [hyps[i]]
            else:
                word_level_hyps = hyps[i].split(',')
                word_level_hyps = [h.strip() for h in word_level_hyps]
                if len(word_level_hyps) < len(word_level_refs):
                    word_level_hyps += ['无内容'] * (len(word_level_refs) -
                                                  len(word_level_hyps))
                else:
                    word_level_hyps = word_level_hyps[:len(word_level_refs)]
            sample_score = rouge_score(word_level_hyps,
                                       word_level_refs)['score']
            scores.append(sample_score)
            details.append({
                'pred': word_level_hyps,
                'answer': word_level_refs,
                'correct': sample_score
            })
        average_score = sum(scores) / len(scores)
        result = {'AvgRougeScore': average_score, 'details': details}
        random.setstate(random_state)
        np.random.set_state(np_random_state)
        return self._postprocess(result)
@ICL_EVALUATORS.register_module()
 class AverageRougeScoreEvaluator(AverageRougeEvaluator):
    """Average Rouge Score evaluator."""
    def __init__(self) -> None:
        super().__init__()
 class AccScoreStrEvaluator(BaseEvaluator):
    """Accuracy evaluator based on string matching.
    Args:
        seed (int): Seed for randomness, ensuring reproducibility.
        Defaults to 0.
    """
    def __init__(self, seed: int = 0) -> None:
        self.seed = seed
        super().__init__()
    def _preprocess(self, predictions: List, references: List) -> dict:
        return {
            'predictions': predictions,
            'references': references,
        }
    def _postprocess(self, scores: dict) -> dict:
        return scores
    def score(self, predictions: List, references: List) -> dict:
        random_state = random.getstate()
        np_random_state = np.random.get_state()
        details = []
        random.seed(self.seed)
        np.random.seed(self.seed)
        if len(predictions) != len(references):
            return {
                'error':
                'predictions and references have different '
                f'length. len(predictions): {len(predictions)}, '
                f'len(references): {len(references)}'
            }
        preprocessed_data = self._preprocess(predictions, references)
        correct = 0
        for hyp, ref in zip(preprocessed_data['predictions'],
                            preprocessed_data['references']):
            is_correct = 1 if ref.strip().lower() in hyp.strip().lower() else 0
            correct += is_correct
            details.append({'pred': hyp, 'answer': ref, 'correct': is_correct})
        accuracy = correct / len(predictions)
        result = {'ACCStrScore': accuracy * 100, 'details': details}
        random.setstate(random_state)
        np.random.set_state(np_random_state)
        return self._postprocess(result)
@ICL_EVALUATORS.register_module()
 class AccScoreStr_Evaluator(AccScoreStrEvaluator):
    """Accuracy evaluator wrapper for the AccScoreEvaluator."""
    def __init__(self) -> None:
        super().__init__()
--- a/opencompass/datasets/init.py
+++ b/opencompass/datasets/init.py
@ -134,6 +134,7 @@ from .ruler import *  # noqa: F401, F403
 from .safety import *  # noqa: F401, F403
 from .scibench import ScibenchDataset, scibench_postprocess  # noqa: F401, F403
 from .scicode import *  # noqa: F401, F403
 from .SeedBench import *  # noqa: F401, F403
 from .simpleqa import *  # noqa: F401, F403
 from .siqa import *  # noqa: F401, F403
 from .smolinstruct import *  # noqa: F401, F403
--- a/opencompass/utils/datasets_info.py
+++ b/opencompass/utils/datasets_info.py
@ -235,6 +235,12 @@ DATASETS_MAPPING = {
        "hf_id": "opencompass/race",
        "local": "./data/race/",
    },
    # SeedBench
    "opencompass/seedbench": {
        "ms_id": "y12869741/SeedBench",
        "hf_id": "yj12869741/SeedBench",
        "local": "./data/SeedBench",
    },
    # SIQA
    "opencompass/siqa": {
        "ms_id": "opencompass/siqa",