offline_data_model_pipline/data_generate/query_completion/README.md

# 数据处理流程

## 数据打分
- **Score**: 对数据进行评分，生成带有分数的数据集。

## 数据标签
- **Instag**: 生成`dhbq_instag.jsonl`。
- **Prompt Label**
- **Export Embedding + Cluster KMeans**: 使用KMeans聚类算法对导出的embedding进行聚类，得到`dhbq_cluster_kmeans_result.jsonl`。

## 数据合并
- **Merge**: 将得分和三种类型的标签（`instag`、`prompt_label`、`cluster`）合并到一起，生成`dhbq_merged_with_score.jsonl`。
  - 获取得分等于5的数据，生成`dhbq_merged_with_score_5.jsonl`。

## 高频问题处理
- **Frequency**: 基于原始文件统计问题出现的频率，并识别得分等于5的问题。
- **Embedding Similarity**: 使用embedding相似度过滤重复问题；对于无法通过此方法过滤的问题，将采取人工审查的方式。

## 类别统计
- **Count Instag**: 统计`instag`标签的数量。
- **Count Label**: 统计`prompt_label`的数量。
- **Count Cluster**: 统计通过KMeans聚类结果的数量。

## 数据获取
- **Select Final Data**: 按照类别从最终数据集中抽取所需数据。
- **Gen Train Data**: 根据选定的数据生成适合训练模型使用的数据格式。
-												feat: 对话补全训练数据生成

											
										
										
											2025-05-13 13:00:51 +08:00
+								# 数据处理流程
 								## 数据打分
 								- **Score**: 对数据进行评分，生成带有分数的数据集。
 								## 数据标签
 								- **Instag**: 生成`dhbq_instag.jsonl`。
 								- **Prompt Label**
 								- **Export Embedding + Cluster KMeans**: 使用KMeans聚类算法对导出的embedding进行聚类，得到`dhbq_cluster_kmeans_result.jsonl`。
 								## 数据合并
 								- **Merge**: 将得分和三种类型的标签（`instag`、`prompt_label`、`cluster`）合并到一起，生成`dhbq_merged_with_score.jsonl`。
 								  - 获取得分等于5的数据，生成`dhbq_merged_with_score_5.jsonl`。
 								## 高频问题处理
 								- **Frequency**: 基于原始文件统计问题出现的频率，并识别得分等于5的问题。
 								- **Embedding Similarity**: 使用embedding相似度过滤重复问题；对于无法通过此方法过滤的问题，将采取人工审查的方式。
 								## 类别统计
 								- **Count Instag**: 统计`instag`标签的数量。
 								- **Count Label**: 统计`prompt_label`的数量。
 								- **Count Cluster**: 统计通过KMeans聚类结果的数量。
 								## 数据获取
 								- **Select Final Data**: 按照类别从最终数据集中抽取所需数据。
 								- **Gen Train Data**: 根据选定的数据生成适合训练模型使用的数据格式。