[Update] Update LiveMathBench (#1809)

* Update LiveMathBench * Update New O1 Evaluation * Update O1 evaluation
2025-05-30 16:03:24 +08:00 · 2025-01-07 19:16:12 +08:00 · 2025-01-07 19:16:12 +08:00 · f1e50d4bf0
commit f1e50d4bf0
parent 8fdb72f567
1 changed files with 51 additions and 0 deletions
--- a/opencompass/configs/datasets/livemathbench/livemathbench_greedy_gen_efb20d.py
+++ b/opencompass/configs/datasets/livemathbench/livemathbench_greedy_gen_efb20d.py
@ -0,0 +1,51 @@
+from opencompass.openicl.icl_prompt_template import PromptTemplate
+from opencompass.openicl.icl_retriever import ZeroRetriever
+from opencompass.openicl.icl_inferencer import GenInferencer
+
+from opencompass.datasets.livemathbench import LiveMathBenchDataset, LiveMathBenchEvaluator
+
+
+livemathbench_dataset = dict(
+    abbr='LiveMathBench-v202412-greedy', # If you change the K and replication, you need to change the dataset name.
+    type=LiveMathBenchDataset,
+    path='opencompass/LiveMathBench',
+    k=1,
+    replication=1,
+    dataset_splits=['CNMO', 'CCEE', 'AMC', 'WLPMC'],
+    dataset_languages=['cn', 'en'],
+    cot=False,
+    version='202412',
+    reader_cfg=dict(
+        input_columns=['prompt'], 
+        output_column='answer'
+    ),
+    infer_cfg=dict(
+        prompt_template=dict(
+            type=PromptTemplate,
+            template=dict(
+                round=[
+                    dict(role='HUMAN', prompt='{prompt}'),
+                ]
+            )
+        ),
+        retriever=dict(type=ZeroRetriever),
+        inferencer=dict(
+            type=GenInferencer, 
+            max_out_len=16384,
+        ),
+    ),
+    eval_cfg=dict(
+        evaluator=dict(
+            type=LiveMathBenchEvaluator,
+            model_name='',
+            url=[],
+            use_extract_model=False,
+            extract_url=[],
+            extract_model_name='',
+            k=[1],
+            replication=1,
+            thresholds=[0.0, 0.25, 0.5, 0.75, 1.0]
+        )
+    )
+)
+livemathbench_datasets = [livemathbench_dataset]