lidehao/offline_data_model_pipline

History

suojiayi c2d49e885e feat: 对话补全训练数据生成		2025-05-13 06:42:43 +00:00
..
cluster_kmeans.py	feat: 对话补全训练数据生成	2025-05-13 05:00:51 +00:00
count_cluster.py	feat: 对话补全训练数据生成	2025-05-13 05:00:51 +00:00
count_instag.py	feat: 对话补全训练数据生成	2025-05-13 05:00:51 +00:00
count_label.py	feat: 对话补全训练数据生成	2025-05-13 05:00:51 +00:00
embedding_similarity.py	feat: 对话补全训练数据生成	2025-05-13 05:00:51 +00:00
export_embedding.py	feat: 对话补全训练数据生成	2025-05-13 05:00:51 +00:00
frequency.py	feat: 对话补全训练数据生成	2025-05-13 05:00:51 +00:00
gen_train_data.py	feat: 对话补全训练数据生成	2025-05-13 05:00:51 +00:00
instag.py	feat: 对话补全训练数据生成	2025-05-13 05:00:51 +00:00
merge.py	feat: 对话补全训练数据生成	2025-05-13 06:39:28 +00:00
prompt_label.py	feat: 对话补全训练数据生成	2025-05-13 05:00:51 +00:00
README.md	feat: 对话补全训练数据生成	2025-05-13 05:00:51 +00:00
score.py	feat: 对话补全训练数据生成	2025-05-13 05:00:51 +00:00
select_final_data.py	feat: 对话补全训练数据生成	2025-05-13 06:42:43 +00:00

README.md

数据处理流程

数据打分

Score: 对数据进行评分，生成带有分数的数据集。

数据标签

Instag: 生成dhbq_instag.jsonl。
Prompt Label
Export Embedding + Cluster KMeans: 使用KMeans聚类算法对导出的embedding进行聚类，得到dhbq_cluster_kmeans_result.jsonl。

数据合并

Merge: 将得分和三种类型的标签（instag、prompt_label、cluster）合并到一起，生成dhbq_merged_with_score.jsonl。
- 获取得分等于5的数据，生成dhbq_merged_with_score_5.jsonl。

高频问题处理

Frequency: 基于原始文件统计问题出现的频率，并识别得分等于5的问题。
Embedding Similarity: 使用embedding相似度过滤重复问题；对于无法通过此方法过滤的问题，将采取人工审查的方式。

类别统计

Count Instag: 统计instag标签的数量。
Count Label: 统计prompt_label的数量。
Count Cluster: 统计通过KMeans聚类结果的数量。

数据获取

Select Final Data: 按照类别从最终数据集中抽取所需数据。
Gen Train Data: 根据选定的数据生成适合训练模型使用的数据格式。