offline_data_model_pipline/data_generate/query_completion
2025-05-13 06:42:43 +00:00
..
cluster_kmeans.py feat: 对话补全训练数据生成 2025-05-13 05:00:51 +00:00
count_cluster.py feat: 对话补全训练数据生成 2025-05-13 05:00:51 +00:00
count_instag.py feat: 对话补全训练数据生成 2025-05-13 05:00:51 +00:00
count_label.py feat: 对话补全训练数据生成 2025-05-13 05:00:51 +00:00
embedding_similarity.py feat: 对话补全训练数据生成 2025-05-13 05:00:51 +00:00
export_embedding.py feat: 对话补全训练数据生成 2025-05-13 05:00:51 +00:00
frequency.py feat: 对话补全训练数据生成 2025-05-13 05:00:51 +00:00
gen_train_data.py feat: 对话补全训练数据生成 2025-05-13 05:00:51 +00:00
instag.py feat: 对话补全训练数据生成 2025-05-13 05:00:51 +00:00
merge.py feat: 对话补全训练数据生成 2025-05-13 06:39:28 +00:00
prompt_label.py feat: 对话补全训练数据生成 2025-05-13 05:00:51 +00:00
README.md feat: 对话补全训练数据生成 2025-05-13 05:00:51 +00:00
score.py feat: 对话补全训练数据生成 2025-05-13 05:00:51 +00:00
select_final_data.py feat: 对话补全训练数据生成 2025-05-13 06:42:43 +00:00

数据处理流程

数据打分

  • Score: 对数据进行评分,生成带有分数的数据集。

数据标签

  • Instag: 生成dhbq_instag.jsonl
  • Prompt Label
  • Export Embedding + Cluster KMeans: 使用KMeans聚类算法对导出的embedding进行聚类得到dhbq_cluster_kmeans_result.jsonl

数据合并

  • Merge: 将得分和三种类型的标签(instagprompt_labelcluster)合并到一起,生成dhbq_merged_with_score.jsonl
    • 获取得分等于5的数据生成dhbq_merged_with_score_5.jsonl

高频问题处理

  • Frequency: 基于原始文件统计问题出现的频率并识别得分等于5的问题。
  • Embedding Similarity: 使用embedding相似度过滤重复问题对于无法通过此方法过滤的问题将采取人工审查的方式。

类别统计

  • Count Instag: 统计instag标签的数量。
  • Count Label: 统计prompt_label的数量。
  • Count Cluster: 统计通过KMeans聚类结果的数量。

数据获取

  • Select Final Data: 按照类别从最终数据集中抽取所需数据。
  • Gen Train Data: 根据选定的数据生成适合训练模型使用的数据格式。