[Fix] fix interntrain's tokenizer truncate (#1605)

Co-authored-by: x54-729 <xingshuhao.dispatch@pjlab.org.cn>
2025-05-30 16:03:24 +08:00 · 2024-10-15 16:03:57 +08:00 · 2024-10-15 16:03:57 +08:00 · 2b1afa7d1e
commit 2b1afa7d1e
parent 8aba547e06
1 changed files with 8 additions and 3 deletions
--- a/opencompass/models/interntrain.py
+++ b/opencompass/models/interntrain.py
@ -318,9 +318,14 @@ class InternTrain(BaseModel):
            # keep same with InternTrain's default value
            min_out_len = 1

-        tokens = self.batch_encode(inputs,
-                                   self.max_seq_len - max_out_len,
-                                   left_padding=True)
+        if self.mode == 'none':
+            tokens = self.batch_encode(inputs,
+                                       self.max_seq_len,
+                                       left_padding=True)
+        else:
+            tokens = self.batch_encode(inputs,
+                                       self.max_seq_len - max_out_len,
+                                       left_padding=True)

        # random seed for pass@k
        seed = torch.tensor(time.time(), dtype=torch.int64).cuda()