Merge e754804c68 into 408f5caff4

2025-05-30 16:03:24 +08:00 · 2025-05-28 11:38:58 +02:00 · 2025-05-28 11:38:58 +02:00 · b631c1a5ea
commit b631c1a5ea
parent 408f5caff4 e754804c68
4 changed files with 421 additions and 0 deletions
--- a/configs/datasets/FewCLUE_chid/FewCLUE_chid_knowledge_gen_0a29a2.py
+++ b/configs/datasets/FewCLUE_chid/FewCLUE_chid_knowledge_gen_0a29a2.py
@ -0,0 +1,66 @@
+from opencompass.openicl.icl_prompt_template import PromptTemplate
+from opencompass.openicl.icl_retriever import KnowledgeRetriever
+from opencompass.openicl.icl_inferencer import GenInferencer
+from opencompass.openicl.icl_evaluator import AccEvaluator
+from opencompass.datasets import CHIDDataset_V2
+from opencompass.utils.text_postprocessors import first_capital_postprocess
+
+chid_knowledge_reader_cfg = dict(
+    input_columns=["content", "A", "B", "C", "D", "E", "F", "G"],
+    output_column="answer",
+)
+
+chid_knowledge_infer_cfg = dict(
+    ice_template=dict(
+        type=PromptTemplate,
+        template='以下是参考内容：{knowledge}，结合上述参考内容，考虑接下来的问题：'
+    ),
+    prompt_template=dict(
+        type=PromptTemplate,
+        template=dict(
+            round=[
+                dict(
+                    role="HUMAN",
+                    prompt=
+                    "</E>{content}\n请选择______处所填的词\nA. {A}\nB. {B}\nC. {C}\nD. {D}\nE. {E}\nF. {F}\nG. {G}\n请从“A”，“B”，“C”，“D”，“E”，“F”，“G”中进行选择。答：",
+                ),
+            ]
+        ),
+        ice_token='</E>'
+    ),
+    retriever=dict(
+        type=KnowledgeRetriever,
+        knowledge_docs=[
+            './data/knowledge/chengyu-01-of-02.txt',
+            './data/knowledge/chengyu-02-of-02.txt',
+            ],
+        retrieve_keys=['A', 'B', 'C', 'D', 'E', 'F', 'G'],
+        ice_eos_token='\n'
+        ),
+    inferencer=dict(type=GenInferencer),
+)
+
+chid_knowledge_eval_cfg = dict(
+    evaluator=dict(type=AccEvaluator),
+    pred_role="BOT",
+    pred_postprocessor=dict(type=first_capital_postprocess),
+)
+
+chid_knowledge_datasets = [
+    dict(
+        abbr="chid-dev",
+        type=CHIDDataset_V2,
+        path="./data/FewCLUE/chid/dev_few_all.json",
+        reader_cfg=chid_knowledge_reader_cfg,
+        infer_cfg=chid_knowledge_infer_cfg,
+        eval_cfg=chid_knowledge_eval_cfg,
+    ),
+    dict(
+        abbr="chid-test",
+        type=CHIDDataset_V2,
+        path="./data/FewCLUE/chid/test_public.json",
+        reader_cfg=chid_knowledge_reader_cfg,
+        infer_cfg=chid_knowledge_infer_cfg,
+        eval_cfg=chid_knowledge_eval_cfg,
+    ),
+]
--- a/configs/eval_demo_knowledge.py
+++ b/configs/eval_demo_knowledge.py
@ -0,0 +1,9 @@
+from mmengine.config import read_base
+
+with read_base():
+    from .datasets.FewCLUE_chid.FewCLUE_chid_knowledge_gen_0a29a2 import chid_knowledge_datasets
+    from .models.hf_opt_125m import opt125m
+    from .models.hf_opt_350m import opt350m
+
+datasets = [*chid_knowledge_datasets]
+models = [opt125m, opt350m]
--- a/opencompass/openicl/icl_retriever/init.py
+++ b/opencompass/openicl/icl_retriever/init.py
@ -8,3 +8,4 @@ from .icl_sliding_k_retriever import SlidingWindowRetriever  # noqa
 from .icl_topk_retriever import TopkRetriever  # noqa
 from .icl_votek_retriever import VotekRetriever  # noqa
 from .icl_zero_retriever import ZeroRetriever  # noqa
+from .icl_knowledge_retriever import KnowledgeRetriever
--- a/opencompass/openicl/icl_retriever/icl_knowledge_retriever.py
+++ b/opencompass/openicl/icl_retriever/icl_knowledge_retriever.py
@ -0,0 +1,345 @@
+"""Local Knowledge Retriever."""
+
+from typing import List, Optional, Callable, Dict, Any
+
+from opencompass.openicl.icl_retriever import BaseRetriever
+from opencompass.openicl.icl_prompt_template import PromptTemplate
+from opencompass.registry import ICL_RETRIEVERS
+from opencompass.utils import get_logger
+
+logger = get_logger(__name__)
+
+import os
+import re
+import numpy as np
+import torch
+from copy import deepcopy
+from tqdm import tqdm
+from langchain.text_splitter import CharacterTextSplitter
+from langchain.document_loaders import TextLoader, CSVLoader, UnstructuredFileLoader
+from langchain.schema import Document
+from langchain.vectorstores import FAISS
+from langchain.vectorstores.base import VectorStore
+from langchain.vectorstores.faiss import dependable_faiss_import
+from langchain.docstore.base import Docstore
+from langchain.docstore.document import Document
+
+
+
+VECTOR_SEARCH_SCORE_THRESHOLD = 500
+CHUNK_SIZE = 50
+
+class RetrievedFAISS(FAISS, VectorStore):
+    def __init__(self,
+                 embedding_function: Callable,
+                 index: Any,
+                 docstore: Docstore,
+                 index_to_docstore_id: Dict[int, str],
+                 normalize_L2: bool = False,
+        ):
+        super().__init__(embedding_function=embedding_function,
+                         index=index,
+                         docstore=docstore,
+                         index_to_docstore_id=index_to_docstore_id,
+                         normalize_L2=normalize_L2)
+        self.score_threshold = VECTOR_SEARCH_SCORE_THRESHOLD
+        self.chunk_size = CHUNK_SIZE
+        self.chunk_conent = False
+
+    def seperate_list(self, lines: List[int]) -> List[List[int]]:
+        results = []
+        cur_line = [lines[0]]
+        docs_source = self.index_to_docstore_source(lines[0])
+        for i in range(1, len(lines)):
+            if lines[i - 1] + 1 == lines[i] and self.index_to_docstore_source(lines[i]) == docs_source:
+                cur_line.append(lines[i])
+            else:
+                results.append(cur_line)
+                cur_line = [lines[i]]
+                docs_source = self.index_to_docstore_source(lines[i])
+        results.append(cur_line)
+        return results
+
+    def similarity_search_with_score_by_vector(
+            self, embedding: List[float], k: int = 4
+            ) -> List[Document]:
+        faiss = dependable_faiss_import()
+        vector = np.array([embedding], dtype=np.float32)
+        if self._normalize_L2:
+            faiss.normalize_L2(vector)
+        scores, indices = self.index.search(vector, k)
+        docs = []
+        id_set = set()
+        store_len = len(self.index_to_docstore_id)
+        rearrange_id_list = False
+        for j, i in enumerate(indices[0]):
+            if i == -1 or 0 < self.score_threshold < scores[0][j]:
+                continue
+            if i in self.index_to_docstore_id:
+                _id = self.index_to_docstore_id[i]
+            else:
+                continue
+            doc = self.docstore.search(_id)
+            if (not self.chunk_conent) or ("context_expand" in doc.metadata and not doc.metadata["context_expand"]):
+                if not isinstance(doc, Document):
+                    raise ValueError(f"Could not find document for id {_id}, got {doc}")
+                doc.metadata["score"] = int(scores[0][j])
+                docs.append(doc)
+                continue
+
+            id_set.add(i)
+            docs_len = len(doc.page_content)
+            for k in range(1, max(i, store_len - i)):
+                break_flag = False
+                if "context_expand_method" in doc.metadata and doc.metadata["context_expand_method"] == "forward":
+                    expand_range = [i + k]
+                elif "context_expand_method" in doc.metadata and doc.metadata["context_expand_method"] == "backward":
+                    expand_range = [i - k]
+                else:
+                    expand_range = [i + k, i - k]
+                for l in expand_range:
+                    if l not in id_set and 0 <= l < len(self.index_to_docstore_id):
+                        _id0 = self.index_to_docstore_id[l]
+                        doc0 = self.docstore.search(_id0)
+                        if docs_len + len(doc0.page_content) > self.chunk_size or doc0.metadata["source"] != \
+                                doc.metadata["source"]:
+                            break_flag = True
+                            break
+                        elif doc0.metadata["source"] == doc.metadata["source"]:
+                            docs_len += len(doc0.page_content)
+                            id_set.add(l)
+                            rearrange_id_list = True
+                if break_flag:
+                    break
+        if (not self.chunk_conent) or (not rearrange_id_list):
+            return docs
+        if len(id_set) == 0 and self.score_threshold > 0:
+            return []
+        id_list = sorted(list(id_set))
+        id_lists = self.seperate_list(id_list)
+        for id_seq in id_lists:
+            for id in id_seq:
+                if id == id_seq[0]:
+                    _id = self.index_to_docstore_id[id]
+                    doc = deepcopy(self.docstore.search(_id))
+                else:
+                    _id0 = self.index_to_docstore_id[id]
+                    doc0 = self.docstore.search(_id0)
+                    doc.page_content += " " + doc0.page_content
+            if not isinstance(doc, Document):
+                raise ValueError(f"Could not find document for id {_id}, got {doc}")
+            doc_score = min([scores[0][id] for id in [indices[0].tolist().index(i) for i in id_seq if i in indices[0]]])
+            doc.metadata["score"] = int(doc_score)
+            docs.append(doc)
+        return docs
+
+    def list_docs(self):
+        return list(v.metadata["source"] for v in self.docstore._dict.values())
+
+    def index_to_docstore_source(self,i:int):
+        _id = self.index_to_docstore_id[i]
+        doc = self.docstore.search(_id)
+        return doc.metadata["source"]
+
+class ChineseTextSplitter(CharacterTextSplitter):
+    def __init__(
+            self,
+            max_length: int,
+            **kwargs
+            ):
+        super().__init__(**kwargs)
+        self.max_length = max_length
+
+    def split_text(
+            self,
+            text: str,
+            is_pdf: bool = False,
+            ) -> List[str]:
+        if is_pdf:
+            text = re.sub(r"\n{3,}", r"\n", text)
+            text = re.sub('\s', " ", text)
+            text = re.sub("\n\n", "", text)
+
+        text = re.sub(r'([;；.!?。！？\?])([^”’])', r"\1\n\2", text)
+        text = re.sub(r'(\.{6})([^"’”」』])', r"\1\n\2", text)
+        text = re.sub(r'(\…{2})([^"’”」』])', r"\1\n\2", text)
+        text = re.sub(r'([;；!?。！？\?]["’”」』]{0,2})([^;；!?，。！？\?])', r'\1\n\2', text)
+        text = text.rstrip()
+        lines = [i for i in text.split("\n") if i]
+        for cur_line in lines:
+            if len(cur_line) > self.max_length:
+                sub_lines1 = re.sub(r'([,，.]["’”」』]{0,2})([^,，.])', r'\1\n\2', cur_line).split("\n")
+                for cur_s_line1 in sub_lines1:
+                    if len(cur_s_line1) > self.max_length:
+                        sub_lines2 = re.sub(r'([\n]{1,}| {2,}["’”」』]{0,2})([^\s])', r'\1\n\2', cur_s_line1).split("\n")
+                        for cur_s_line2 in sub_lines2:
+                            if len(cur_s_line2) > self.max_length:
+                                cur_s_line3 = re.sub('( ["’”」』]{0,2})([^ ])', r'\1\n\2', cur_s_line2)
+                                cur_s_idx2 = sub_lines2.index(cur_s_line2)
+                                sub_lines2 = sub_lines2[:cur_s_idx2] + [i for i in cur_s_line3.split("\n") if i] + sub_lines2[cur_s_idx2 + 1:]
+                        cur_s_idx1 = sub_lines1.index(cur_s_line1)
+                        sub_lines1 = sub_lines1[:cur_s_idx1] + [i for i in sub_lines2 if i] + sub_lines1[cur_s_idx1 + 1:]
+
+                cur_idx = lines.index(cur_line)
+                lines = lines[:cur_idx] + [i for i in sub_lines1 if i] + lines[cur_idx + 1:]
+        return lines
+
+def load_knowledge(
+        knowledge_doc: str,
+        sentence_max_length: int
+        ) -> List[Document]:
+    """
+    Load and split knowledge documents from .txt or .csv formats.
+
+    knowledge_doc (`str`): Path to the knowledge document file.
+    sentence_max_length (`str`): Maximum length of a sentence in terms of tokens.
+    """
+    text_splitter = ChineseTextSplitter(max_length=sentence_max_length)
+    if knowledge_doc.lower().endswith(".txt"):
+        loader = TextLoader(knowledge_doc, autodetect_encoding=True)
+        docs = loader.load_and_split(text_splitter)
+    elif knowledge_doc.lower().endswith(".csv"):
+        loader = CSVLoader(knowledge_doc)
+        docs = loader.load()
+    else:
+        loader = UnstructuredFileLoader(knowledge_doc, mode="elements")
+        docs = loader.load_and_split(text_splitter=text_splitter)
+    return docs
+
+class LocalKnowledgeBase:
+    """Local Knowledge Base.
+
+    Args:
+        embedding_path (`Optional[str]`): The path or name of the 
+            pre-trained embedding model used for encoding text.
+        topk (`int`): The number of most similar knowledge 
+            documents to retrieve for a given query.
+        knowledge_docs (`List`): Files containing the knowledge base,
+            supporting txt, csv formats.
+        sentence_max_length (`int`): Maximum length of a sentence
+            in terms of tokens for processing.
+        vector_store_path (`str or os.PathLike`): Path to save or load
+            pre-computed document vectors.
+        device (`Optional[str]`): The device (CPU or GPU) to
+            run the embedding model on.
+    """
+    def __init__(
+        self,
+        embedding_path: str,
+        topk: int,
+        knowledge_docs: List[str],
+        sentence_max_length: int,
+        vector_store_path: str or os.PathLike = None,
+        device: Optional[str] = None,
+    ) -> None:
+        from langchain.embeddings.huggingface import HuggingFaceEmbeddings
+        self.embeddings = HuggingFaceEmbeddings(
+            model_name=embedding_path,
+            model_kwargs={'device': device}
+        )
+        self.topk = topk
+
+        docs = sum([load_knowledge(knowledge_doc=cur_doc, sentence_max_length=sentence_max_length) for cur_doc in knowledge_docs], [])
+
+        if vector_store_path is None:
+            vector_store_path = os.path.join(
+                os.path.commonprefix(knowledge_docs).rsplit('/', 1)[0],
+                "vector_store")
+
+        if os.path.isdir(vector_store_path) and "index.faiss" in os.listdir(vector_store_path):
+            logger.info(f'Loading from existing vector store ({vector_store_path})...')
+            self.vector_store = RetrievedFAISS.load_local(vector_store_path, self.embeddings)
+            self.vector_store.add_documents(docs)
+        else:
+            logger.info(f'Constructing vector store ({vector_store_path})...')
+            self.vector_store = RetrievedFAISS.from_documents(docs, self.embeddings)
+
+        torch.cuda.empty_cache()
+        torch.cuda.ipc_collect()
+        self.vector_store.save_local(vector_store_path)
+
+        logger.info(f'Vector store is ready.')
+
+    def retrieve_one(self, query: str, separator: str = ' ') -> str:
+        """Retrieve the most relevant knowledge documents based on a query."""
+        related_docs_with_score = self.vector_store.similarity_search_with_score(
+            query,
+            k=self.topk)
+        torch.cuda.empty_cache()
+        torch.cuda.ipc_collect()
+        return separator.join([cur_doc.page_content for cur_doc in related_docs_with_score])
+
+@ICL_RETRIEVERS.register_module()
+class KnowledgeRetriever(BaseRetriever):
+    """Local Knowledge Retriever. The retriever returns related local knowledge for all queries.
+
+    Args:
+        dataset (`BaseDataset`): Any BaseDataset instances.
+            Attributes of ``reader``, ``train`` and ``test`` will be used.
+        knowledge_docs (`List`): Files containing the knowledge base,
+            supporting txt, csv formats.
+        retrieve_keys (`List`): Keys of the test sample that require
+            indexing of relevant knowledge.
+        embedding_path (`Optional[str]`): The path or name of the 
+            pre-trained embedding model used for encoding text.
+        ice_eos_token (`Optional[str]`): The end of sentence token for
+            in-context example template when origin `PromptTemplate` is
+            provided. Defaults to ''.
+    """
+    def __init__(self,
+                 dataset,
+                 knowledge_docs: List,
+                 retrieve_keys: List,
+                 embedding_path: Optional[str] = 'GanymedeNil/text2vec-large-chinese',
+                 ice_eos_token: Optional[str] = '') -> None:
+        super().__init__(dataset, '', ice_eos_token, 0)
+        self.knowledge_ds = None
+        self.retrieve_keys = retrieve_keys
+
+        self.local_knowledge_base = LocalKnowledgeBase(
+            embedding_path=embedding_path,
+            knowledge_docs=knowledge_docs,
+            topk=3,
+            sentence_max_length=100)
+
+    def retrieve(self) -> List[List]:
+        """Construct the knowledge base associated with test each sample and retrieve the sequential indices."""
+
+        logger.info('Retrieving data for test set...')
+        rtr_idx_list = [[i] for i in range(len(self.test_ds))]
+        self.knowledge_ds = [
+            {'knowledge': '; '.join([
+                self.local_knowledge_base.retrieve_one(cur_d[option_key])
+                for option_key in self.retrieve_keys
+            ])} for cur_d in tqdm(self.test_ds)]
+        return rtr_idx_list
+
+    def generate_ice(self,
+                     idx_list: List[int],
+                     ice_template: Optional[PromptTemplate] = None) -> str:
+        """Generate the knowledge-related example for one test example.
+
+        Args:
+            idx_list (`List[int]`): The index of knowledge-related examples for the
+                test example.
+            ice_template (`Optional[PromptTemplate]`): The template for
+                knowledge-related example. Defaults to None.
+        """
+        assert self.knowledge_ds is not None, (
+            'knowledge_ds must be set first in retrieve method')
+
+        if ice_template is None:
+            assert len(
+                idx_list
+            ) == 0, 'You have not specified ice_template while retrieving examples from train set! Please either specify ice_template or use `ZeroRetriever`.'  # noqa
+
+        generated_ice_list = []
+        for idx in idx_list:
+            generated_ice_list.append(
+                ice_template.generate_ice_item(
+                    self.knowledge_ds[idx],
+                    ''))
+
+        generated_ice = self.ice_separator.join(
+            generated_ice_list) + self.ice_eos_token
+        return generated_ice