[Feature] Support answer extraction of QwQ when evaluating HuStandardFIB (#36)

2025-05-30 16:03:24 +08:00 · 2025-02-15 12:09:54 +08:00 · 2025-02-15 12:09:54 +08:00 · c7e89aa3db
commit c7e89aa3db
parent 9676d99787
4 changed files with 55 additions and 4 deletions
--- a/examples/eval_OpenHuEval_HuProverbRea_2CQ.py
+++ b/examples/eval_OpenHuEval_HuProverbRea_2CQ.py
@ -30,6 +30,12 @@ for model in models:
                'type': 'rm_<think>_before_eval'
            }
        }
+    if model['abbr'].startswith('QwQ'):
+        model['pred_postprocessor'] = {
+            'OpenHuEval_*': {
+                'type': 'extract_qwq_answer_before_eval_for_huproverbrea'
+            }
+        }
 del model

 work_dir = './outputs/' + __file__.split('/')[-1].split('.')[0] + '/' # do NOT modify this line, yapf: disable, pylint: disable
--- a/examples/eval_OpenHuEval_HuProverbRea_OE.py
+++ b/examples/eval_OpenHuEval_HuProverbRea_OE.py
@ -33,7 +33,7 @@ for model in models:
    if model['abbr'].startswith('QwQ'):
        model['pred_postprocessor'] = {
            'OpenHuEval_*': {
-                'type': 'extract_qwq_answer_before_eval'
+                'type': 'extract_qwq_answer_before_eval_for_huproverbrea'
            }
        }
 del model
--- a/examples/eval_OpenHuEval_HuStandardFIB.py
+++ b/examples/eval_OpenHuEval_HuStandardFIB.py
@ -15,7 +15,8 @@ with read_base():
    from opencompass.configs.models.hf_internlm.lmdeploy_internlm3_8b_instruct import models as lmdeploy_internlm3_8b_instruct_model

    from opencompass.configs.models.qwq.lmdeploy_qwq_32b_preview import models as lmdeploy_qwq_32b_preview_model
-    from opencompass.configs.models.deepseek.deepseek_r1_api_aliyun import models as deepseek_r1_api_aliyun_model
+    # from opencompass.configs.models.deepseek.deepseek_r1_api_aliyun import models as deepseek_r1_api_aliyun_model
+    from opencompass.configs.models.deepseek.deepseek_r1_api_siliconflow import models as deepseek_r1_api_siliconflow_model
    from opencompass.configs.models.openai.o1_mini_2024_09_12 import models as o1_mini_2024_09_12_model
    # from opencompass.configs.models.openai.o3_mini_2025_01_31 import models as o3_mini_2025_01_31_model

@ -30,6 +31,12 @@ for model in models:
                'type': 'rm_<think>_before_eval'
            }
        }
+    if model['abbr'].startswith('QwQ'):
+        model['pred_postprocessor'] = {
+            'OpenHuEval_*': {
+                'type': 'extract_qwq_answer_before_eval_for_hustandardfib'
+            }
+        }
 del model

 work_dir = './outputs/' + __file__.split('/')[-1].split('.')[0] + '/' # do NOT modify this line, yapf: disable, pylint: disable
--- a/opencompass/utils/text_postprocessors.py
+++ b/opencompass/utils/text_postprocessors.py
@ -243,7 +243,8 @@ def remove_reasoning_part_before_evaluation(text: str):
        return text


-@TEXT_POSTPROCESSORS.register_module('extract_qwq_answer_before_eval')
+@TEXT_POSTPROCESSORS.register_module(
+    'extract_qwq_answer_before_eval_for_huproverbrea')
 def extract_answer_before_evaluation(text: str):
    """Overall, there are three situations in responses of QWQ:

@ -344,4 +345,41 @@ def extract_answer_before_evaluation(text: str):

    answer = '\n\n'.join(text_split[max(ans_start_idx - 1, 0):])

-    return answer, has_answer
+    return answer
+
+
+@TEXT_POSTPROCESSORS.register_module(
+    'extract_qwq_answer_before_eval_for_hustandardfib')
+def extract_answer_before_evaluation(text: str):
+    """The format of the answer from QwQ when inferring HuSimpleQA is \
+    different with others models due to the special prompt."""
+    max_sentence_len = 70
+    if len(re.findall(r'\n\n', text)) > 2:
+        split_mark = '\n\n'
+    else:
+        split_mark = '\n'
+    text_split = text.split(split_mark)
+    last_try_idx = max(len(text_split) - max_sentence_len, 0)
+    ans_start_idx = last_try_idx
+    has_answer = False
+    answer_flags = [
+        '#0#', '#0', 'summar', 'Final Answer', 'final answer', 'Final\nAnswer'
+    ]
+
+    for idx, s in enumerate(reversed(text_split)):
+        sen_idx = len(text_split) - 1 - idx
+        if sen_idx < last_try_idx:
+            break
+
+        for af in answer_flags:
+            if af in s:
+                has_answer = True
+                break
+
+        if has_answer:
+            ans_start_idx = sen_idx
+            break
+
+    answer = '\n\n'.join(text_split[max(ans_start_idx - 1, 0):])
+
+    return answer