offline_data_model_pipline/data_generate/query_completion/README.md

26 lines
1.2 KiB
Markdown
Raw Normal View History

2025-05-13 13:00:51 +08:00
# 数据处理流程
## 数据打分
- **Score**: 对数据进行评分,生成带有分数的数据集。
## 数据标签
- **Instag**: 生成`dhbq_instag.jsonl`。
- **Prompt Label**
- **Export Embedding + Cluster KMeans**: 使用KMeans聚类算法对导出的embedding进行聚类得到`dhbq_cluster_kmeans_result.jsonl`。
## 数据合并
- **Merge**: 将得分和三种类型的标签(`instag`、`prompt_label`、`cluster`)合并到一起,生成`dhbq_merged_with_score.jsonl`。
- 获取得分等于5的数据生成`dhbq_merged_with_score_5.jsonl`。
## 高频问题处理
- **Frequency**: 基于原始文件统计问题出现的频率并识别得分等于5的问题。
- **Embedding Similarity**: 使用embedding相似度过滤重复问题对于无法通过此方法过滤的问题将采取人工审查的方式。
## 类别统计
- **Count Instag**: 统计`instag`标签的数量。
- **Count Label**: 统计`prompt_label`的数量。
- **Count Cluster**: 统计通过KMeans聚类结果的数量。
## 数据获取
- **Select Final Data**: 按照类别从最终数据集中抽取所需数据。
- **Gen Train Data**: 根据选定的数据生成适合训练模型使用的数据格式。