1.2 KiB
1.2 KiB
数据处理流程
数据打分
- Score: 对数据进行评分,生成带有分数的数据集。
数据标签
- Instag: 生成
dhbq_instag.jsonl
。 - Prompt Label
- Export Embedding + Cluster KMeans: 使用KMeans聚类算法对导出的embedding进行聚类,得到
dhbq_cluster_kmeans_result.jsonl
。
数据合并
- Merge: 将得分和三种类型的标签(
instag
、prompt_label
、cluster
)合并到一起,生成dhbq_merged_with_score.jsonl
。- 获取得分等于5的数据,生成
dhbq_merged_with_score_5.jsonl
。
- 获取得分等于5的数据,生成
高频问题处理
- Frequency: 基于原始文件统计问题出现的频率,并识别得分等于5的问题。
- Embedding Similarity: 使用embedding相似度过滤重复问题;对于无法通过此方法过滤的问题,将采取人工审查的方式。
类别统计
- Count Instag: 统计
instag
标签的数量。 - Count Label: 统计
prompt_label
的数量。 - Count Cluster: 统计通过KMeans聚类结果的数量。
数据获取
- Select Final Data: 按照类别从最终数据集中抽取所需数据。
- Gen Train Data: 根据选定的数据生成适合训练模型使用的数据格式。