-
公开(公告)号:CN118798207A
公开(公告)日:2024-10-18
申请号:CN202410276456.4
申请日:2024-03-11
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC: G06F40/30 , G06F18/22 , G06F16/33 , G06F40/242 , G06F40/247
Abstract: 本申请公开了一种术语标准化方法,所述方法包括:基于第一待标准化术语进行标准术语召回,以及基于第一待标准化术语进行编码规则召回,得到召回的候选标准术语集合和编码规则;基于第一待标准化术语、编码规则和候选标准术语集合,确定语言大模型的第一输入提示语;将第一输入提示语输入语言大模型,得到语言大模型输出的第一待标准化术语对应的标准术语;语言大模型用于基于编码规则,从候选标准术语集合中确定第一待标准化术语的标准术语。
-
公开(公告)号:CN118797055A
公开(公告)日:2024-10-18
申请号:CN202410018719.1
申请日:2024-01-04
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC: G06F16/35 , G06F16/33 , G06F16/332 , G06N5/04
Abstract: 本申请公开了一种文本问答数据对的标注方法、装置、设备及存储介质。该方法包括:获取待标注的文本问答数据对,文本问答数据对包括:表征原始问题的第一文本数据和表征原始答案的第二文本数据;基于预训练的文本生成模型对第二文本数据进行处理,得到多个第三文本数据,各第三文本数据用于表征与原始问题对应的伪问题;基于预训练的第一句向量模型,将多个第三文本数据转换为第一向量,并将第一文本数据转换为第二向量;基于第一向量与第二向量之间的相似度,生成文本问答数据对的第一标注数据。可以减少长文本的回答数据受限于第一句向量模型的处理长度导致的匹配性能受损的缺陷,利于满足长文本的问答数据对的自动标注需求。
-
公开(公告)号:CN116414940A
公开(公告)日:2023-07-11
申请号:CN202111622357.X
申请日:2021-12-28
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC: G06F16/33 , G06F16/332 , G06F16/35 , G06F40/30 , G06F18/22
Abstract: 本发明公开了一种标准问题的确定方法、装置及相关设备。该方法包括:在接收到待检索问题的情况下,确定与待检索问题对应的标准问题候选集;基于每条候选标准问题与待检索问题之间的相似度值,以及每条候选标准问题对应的权重值,对N条候选标准问题进行排序;按照N条候选标准问题的排列顺序,将N条候选标准问题中的前M条或后M条候选标准问题确定为目标标准问题。本发明实施例中,基于相似度值和权重值建立候选标准问题与待检索问题之间的关联关系,进而提高智能问答系统检索标准问题的准确率。
-
-