Update datasets_info & hf_path

2025-05-30 16:03:24 +08:00 · 2025-05-07 23:05:36 +08:00 · 2025-05-07 23:05:36 +08:00 · b6d1bc60dc
commit b6d1bc60dc
parent 442c829e0f
8 changed files with 51 additions and 30 deletions
--- a/dataset-index.yml
+++ b/dataset-index.yml
@ -128,6 +128,24 @@
    paper: https://arxiv.org/abs/2501.18362
    configpath: opencompass/configs/datasets/MedXpertQA/MedXpertQA_gen.py
    configpath_llmjudge: opencompass/configs/datasets/MedXpertQA/MedXpertQA_llmjudge_gen.py
+- ClinicBench:
+    name: ClinicBench
+    category: Knowledge / Medicine
+    paper: https://arxiv.org/abs/2405.00716
+    configpath: ''
+    configpath_llmjudge: opencompass/configs/datasets/ClinicBench/ClinicBench_llmjudge_gen.py
+- ScienceQA:
+    name: ScienceQA
+    category: Knowledge / Medicine
+    paper: https://arxiv.org/abs/2209.09513
+    configpath: ''
+    configpath_llmjudge: opencompass/configs/datasets/ScienceQA/ScienceQA_llmjudge_gen.py
+- PubMedQA:
+    name: PubMedQA
+    category: Knowledge / Medicine
+    paper: https://arxiv.org/abs/1909.06146
+    configpath: ''
+    configpath_llmjudge: opencompass/configs/datasets/PubMedQA/PubMedQA_llmjudge_gen.py
 - musr:
    name: MuSR
    category: Reasoning
--- a/opencompass/configs/datasets/ClinicBench/ClinicBench_llmjudge_gen_d09668.py
+++ b/opencompass/configs/datasets/ClinicBench/ClinicBench_llmjudge_gen_d09668.py
@ -45,7 +45,6 @@ ClinicBench_datasets = []
 ClinicBench_reader_cfg = dict(
    input_columns=['question', 'choices'],
    output_column='label',
-    test_split='validation',
 )

 ClinicBench_infer_cfg = dict(
--- a/opencompass/configs/datasets/PubMedQA/PubMedQA_llmjudge_gen_f00302.py
+++ b/opencompass/configs/datasets/PubMedQA/PubMedQA_llmjudge_gen_f00302.py
@ -39,7 +39,6 @@ PubMedQA_datasets = []
 PubMedQA_reader_cfg = dict(
    input_columns=['question', 'choices'],
    output_column='label',
-    test_split='validation',
 )

 PubMedQA_infer_cfg = dict(
--- a/opencompass/configs/datasets/ScienceQA/ScienceQA_llmjudge_gen_f00302.py
+++ b/opencompass/configs/datasets/ScienceQA/ScienceQA_llmjudge_gen_f00302.py
@ -39,7 +39,6 @@ ScienceQA_datasets = []
 ScienceQA_reader_cfg = dict(
    input_columns=['question', 'choices'],
    output_column='label',
-    test_split='validation',
 )

 ScienceQA_infer_cfg = dict(
--- a/opencompass/datasets/ClinicBench.py
+++ b/opencompass/datasets/ClinicBench.py
@ -1,6 +1,7 @@
-from datasets import Dataset, DatasetDict, load_dataset
+from datasets import load_dataset

 from opencompass.registry import LOAD_DATASET
+from opencompass.utils import get_data_path

 from .base import BaseDataset

@ -9,16 +10,12 @@ from .base import BaseDataset
 class ClinicBenchDataset(BaseDataset):

    @staticmethod
-    def load_single():
-        dataset = load_dataset('xuxuxuxuxu/Pharmacology-QA')['train']
+    def load_single(path):
+        dataset = load_dataset(path)['train']
        return dataset

    @staticmethod
    def load(path):
-        train_dataset = Dataset.from_list([])
-        val_dataset = ClinicBenchDataset.load_single()
-        dataset = DatasetDict({
-            'train': train_dataset,
-            'validation': val_dataset
-        })
+        path = get_data_path(path)
+        dataset = ClinicBenchDataset.load_single(path)
        return dataset
--- a/opencompass/datasets/PubMedQA.py
+++ b/opencompass/datasets/PubMedQA.py
@ -1,6 +1,7 @@
-from datasets import Dataset, DatasetDict, load_dataset
+from datasets import Dataset, load_dataset

 from opencompass.registry import LOAD_DATASET
+from opencompass.utils import get_data_path

 from .base import BaseDataset

@ -9,9 +10,9 @@ from .base import BaseDataset
 class PubMedQADataset(BaseDataset):

    @staticmethod
-    def load_single():
+    def load_single(path):
        dataset = []
-        ds = load_dataset('qiaojin/PubMedQA', 'pqa_labeled')
+        ds = load_dataset(path, 'pqa_labeled')
        for data in ds['train']:
            data['question'] = (f"CONTEXTS: {data['context']}\n"
                                f"QUESTION: {data['question']}")
@ -30,10 +31,6 @@ class PubMedQADataset(BaseDataset):

    @staticmethod
    def load(path):
-        train_dataset = Dataset.from_list([])
-        val_dataset = PubMedQADataset.load_single()
-        dataset = DatasetDict({
-            'train': train_dataset,
-            'validation': val_dataset
-        })
+        path = get_data_path(path)
+        dataset = PubMedQADataset.load_single(path)
        return dataset
--- a/opencompass/datasets/ScienceQA.py
+++ b/opencompass/datasets/ScienceQA.py
@ -1,6 +1,7 @@
-from datasets import Dataset, DatasetDict, load_dataset
+from datasets import Dataset, load_dataset

 from opencompass.registry import LOAD_DATASET
+from opencompass.utils import get_data_path

 from .base import BaseDataset

@ -9,9 +10,9 @@ from .base import BaseDataset
 class ScienceQADataset(BaseDataset):

    @staticmethod
-    def load_single():
+    def load_single(path):
        dataset = []
-        ds = load_dataset('derek-thomas/ScienceQA')
+        ds = load_dataset(path)
        for data in ds['test']:
            if data['image'] is None:
                data['label'] = chr(65 + data['answer']
@ -28,10 +29,6 @@ class ScienceQADataset(BaseDataset):

    @staticmethod
    def load(path):
-        train_dataset = Dataset.from_list([])
-        val_dataset = ScienceQADataset.load_single()
-        dataset = DatasetDict({
-            'train': train_dataset,
-            'validation': val_dataset
-        })
+        path = get_data_path(path)
+        dataset = ScienceQADataset.load_single(path)
        return dataset
--- a/opencompass/utils/datasets_info.py
+++ b/opencompass/utils/datasets_info.py
@ -446,6 +446,21 @@ DATASETS_MAPPING = {
        "hf_id": "",
        "local": "./data/ChemBench4K",
    },
+     "opencompass/ClinicBench": {
+        "ms_id": "",
+        "hf_id": "xuxuxuxuxu/Pharmacology-QA",
+        "local": "",
+    },
+     "opencompass/ScienceQA": {
+        "ms_id": "",
+        "hf_id": "derek-thomas/ScienceQA",
+        "local": "",
+    },
+     "opencompass/PubMedQA": {
+        "ms_id": "",
+        "hf_id": "qiaojin/PubMedQA",
+        "local": "",
+    },

 }