# 数据处理流程 ## 数据打分 - **Score**: 对数据进行评分,生成带有分数的数据集。 ## 数据标签 - **Instag**: 生成`dhbq_instag.jsonl`。 - **Prompt Label** - **Export Embedding + Cluster KMeans**: 使用KMeans聚类算法对导出的embedding进行聚类,得到`dhbq_cluster_kmeans_result.jsonl`。 ## 数据合并 - **Merge**: 将得分和三种类型的标签(`instag`、`prompt_label`、`cluster`)合并到一起,生成`dhbq_merged_with_score.jsonl`。 - 获取得分等于5的数据,生成`dhbq_merged_with_score_5.jsonl`。 ## 高频问题处理 - **Frequency**: 基于原始文件统计问题出现的频率,并识别得分等于5的问题。 - **Embedding Similarity**: 使用embedding相似度过滤重复问题;对于无法通过此方法过滤的问题,将采取人工审查的方式。 ## 类别统计 - **Count Instag**: 统计`instag`标签的数量。 - **Count Label**: 统计`prompt_label`的数量。 - **Count Cluster**: 统计通过KMeans聚类结果的数量。 ## 数据获取 - **Select Final Data**: 按照类别从最终数据集中抽取所需数据。 - **Gen Train Data**: 根据选定的数据生成适合训练模型使用的数据格式。