-
公开(公告)号:CN113535549A
公开(公告)日:2021-10-22
申请号:CN202110691032.0
申请日:2021-06-22
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种测试数据的扩充方法、装置、设备及计算机可读存储介质,其中,所述测试数据的扩充方法包括:获取原始数据集;其中,所述原始数据集包括至少一种业务类别的测试数据;利用第一分类模型对所述原始数据集进行业务分类,得到每个业务类别所对应的原始数据子集;针对各所述业务类别,利用所述业务类别的数据扩充策略对所述业务类别的原始数据子集进行数据扩充,得到所述业务类别的第一扩充数据子集;将各所述业务类别的第一扩充数据子集进行合并,得到扩充数据集。上述方案,能够有效的提高数据采集的效率和质量。
-
公开(公告)号:CN113535805A
公开(公告)日:2021-10-22
申请号:CN202110674107.4
申请日:2021-06-17
Applicant: 科大讯飞股份有限公司
Inventor: 王思睿
IPC: G06F16/2458 , G06F16/332 , G06F40/30 , G06F40/289 , G06F16/35 , G06N3/04 , G06N3/08
Abstract: 本申请公开了一种数据挖掘方法及相关装置和电子设备、存储介质,其中,数据挖掘方法包括:获取与预设交互流程相关的数据库;其中,数据库包括若干第一会话数据;获取若干第一会话数据中第一词语的属性特征;其中,属性特征包括与预设交互流程相关的若干种属性的特征表示;利用若干第一会话数据中第一词语的属性特征训练预设挖掘网络,得到数据挖掘模型;利用数据挖掘模型,从语料库中选择第二会话数据作为挖掘会话数据。上述方案,能够提高数据挖掘的质量。
-
公开(公告)号:CN113535549B
公开(公告)日:2024-08-20
申请号:CN202110691032.0
申请日:2021-06-22
Applicant: 科大讯飞股份有限公司
IPC: G06F11/36 , G06F18/2431 , G06F18/23 , G06F18/214 , G06N3/084 , G06N3/088 , G06N3/0895
Abstract: 本申请公开了一种测试数据的扩充方法、装置、设备及计算机可读存储介质,其中,所述测试数据的扩充方法包括:获取原始数据集;其中,所述原始数据集包括至少一种业务类别的测试数据;利用第一分类模型对所述原始数据集进行业务分类,得到每个业务类别所对应的原始数据子集;针对各所述业务类别,利用所述业务类别的数据扩充策略对所述业务类别的原始数据子集进行数据扩充,得到所述业务类别的第一扩充数据子集;将各所述业务类别的第一扩充数据子集进行合并,得到扩充数据集。上述方案,能够有效的提高数据采集的效率和质量。
-
公开(公告)号:CN115374865A
公开(公告)日:2022-11-22
申请号:CN202211031892.2
申请日:2022-08-26
Applicant: 科大讯飞股份有限公司
IPC: G06K9/62
Abstract: 本申请提供一种训练数据的处理方法、装置、设备以及可读介质,通过从分类模型可分类出的多个类别中,选取出多个重点优化类别。然后至少根据第一筛选条件,从候选样本集中筛选得到训练样本数据。其中,第一筛选条件为所要筛选出的候选样本数据的类别与任意一个重点优化类别匹配,候选样本集包括多个候选样本数据。由于多个重点优化类别中任意两个重点优化类别之间的相似程度均小于相似程度阈值,而两个重点优化类别之间的相似程度为两个重点优化类别下的样本数据之间的相似程度,因此根据第一筛选条件所筛选得到的不同类别的训练样本数据之间,使用该训练样本数据去训练待优化的分类模型时,可以提高待优化的分类模型的优化效果。
-
公开(公告)号:CN117573821A
公开(公告)日:2024-02-20
申请号:CN202311523898.6
申请日:2023-11-10
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/338 , G06F40/216 , G06F40/30
Abstract: 本发明提供一种知识问答方法、装置、设备和存储介质,应用于人工智能技术领域,该方法包括:获取待回答问题和至少一个候选文档;针对各候选文档,确定所述待回答问题与所述候选文档中各段落的匹配分数,所述匹配分数与所述待回答问题中的分词在所述段落中出现的频率、所述待回答问题中的分词在所述待回答问题中出现的频率和所述段落的长度相关;确定所述待回答问题与所述候选文档中各段落的语义相似度;基于各所述段落的所述匹配分数和所述语义相似度,确定目标段落;基于所述目标段落,确定所述待回答问题的答案信息。该方法可以提高召回的目标段落的准确性,从而可以提高大语言模型输出答案的准确度。
-
公开(公告)号:CN113535805B
公开(公告)日:2024-06-04
申请号:CN202110674107.4
申请日:2021-06-17
Applicant: 科大讯飞股份有限公司
Inventor: 王思睿
IPC: G06F16/2458 , G06F16/332 , G06F40/30 , G06F40/289 , G06F16/35 , G06N3/0464 , G06N3/0455
Abstract: 本申请公开了一种数据挖掘方法及相关装置和电子设备、存储介质,其中,数据挖掘方法包括:获取与预设交互流程相关的数据库;其中,数据库包括若干第一会话数据;获取若干第一会话数据中第一词语的属性特征;其中,属性特征包括与预设交互流程相关的若干种属性的特征表示;利用若干第一会话数据中第一词语的属性特征训练预设挖掘网络,得到数据挖掘模型;利用数据挖掘模型,从语料库中选择第二会话数据作为挖掘会话数据。上述方案,能够提高数据挖掘的质量。
-
-
-
-
-