26 lines
1.2 KiB
Markdown
26 lines
1.2 KiB
Markdown
|
# 数据处理流程
|
|||
|
|
|||
|
## 数据打分
|
|||
|
- **Score**: 对数据进行评分,生成带有分数的数据集。
|
|||
|
|
|||
|
## 数据标签
|
|||
|
- **Instag**: 生成`dhbq_instag.jsonl`。
|
|||
|
- **Prompt Label**
|
|||
|
- **Export Embedding + Cluster KMeans**: 使用KMeans聚类算法对导出的embedding进行聚类,得到`dhbq_cluster_kmeans_result.jsonl`。
|
|||
|
|
|||
|
## 数据合并
|
|||
|
- **Merge**: 将得分和三种类型的标签(`instag`、`prompt_label`、`cluster`)合并到一起,生成`dhbq_merged_with_score.jsonl`。
|
|||
|
- 获取得分等于5的数据,生成`dhbq_merged_with_score_5.jsonl`。
|
|||
|
|
|||
|
## 高频问题处理
|
|||
|
- **Frequency**: 基于原始文件统计问题出现的频率,并识别得分等于5的问题。
|
|||
|
- **Embedding Similarity**: 使用embedding相似度过滤重复问题;对于无法通过此方法过滤的问题,将采取人工审查的方式。
|
|||
|
|
|||
|
## 类别统计
|
|||
|
- **Count Instag**: 统计`instag`标签的数量。
|
|||
|
- **Count Label**: 统计`prompt_label`的数量。
|
|||
|
- **Count Cluster**: 统计通过KMeans聚类结果的数量。
|
|||
|
|
|||
|
## 数据获取
|
|||
|
- **Select Final Data**: 按照类别从最终数据集中抽取所需数据。
|
|||
|
- **Gen Train Data**: 根据选定的数据生成适合训练模型使用的数据格式。
|