-
公开(公告)号:CN118246412A
公开(公告)日:2024-06-25
申请号:CN202410349084.3
申请日:2024-03-26
申请人: 科大讯飞(北京)有限公司 , 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院
IPC分类号: G06F40/166 , G06F40/232 , G06F40/284 , G06N20/00
摘要: 本申请公开了一种文本润色训练数据筛选方法、装置、相关设备及计算机程序产品,本申请在获取到文本润色任务数据集后,调用人工智能大模型,通过第一提示指令prompt指示大模型结合给定的评测标准对每条润色任务进行评测,给出评测结果,借助大模型的能力可以更加准确的得到每条润色任务的质量评测结果,与人类专家给出的评测结果更加接近,可以节省大量人力并避免由于主观偏见造成的评测结果波动。在此基础上,可以筛选出满足设定评测结果要求的润色任务作为最终的润色训练数据,得到高质量的润色训练数据。以筛选得到的高质量的润色训练数据训练处理文本润色任务的模型时,可以提升模型的训练效果。
-
公开(公告)号:CN117973369A
公开(公告)日:2024-05-03
申请号:CN202410153454.6
申请日:2024-02-02
申请人: 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 科大讯飞(北京)有限公司
IPC分类号: G06F40/232 , G06F40/284 , G06F40/242 , G06F18/214 , G06F18/213 , G06F18/2411 , G06F18/25
摘要: 本申请公开了一种文本纠错方法、装置、相关设备及计算机程序产品,本申请分别采用通用词典和目标领域的专业词典对待纠错文本进行分词,得到第一分词结果和第二分词结果,由第一分词结果确定通用词典向量,由第二分词结果确定专业词典向量,对两种词典向量进行融合,基于融合向量确定待纠错文本对应的纠错后文本。通用词典向量涵盖了待纠错文本中可能存在的一般性错误信息,专业词典向量涵盖了待纠错文本中可能存在的目标领域下专业词汇的拼写错误信息,基于融合向量确定待纠错文本的纠错后文本,保证了本申请方案对常见的一般性错误的纠错能力,以及对特定垂类领域的专业词汇的拼写错误的纠错能力,大大提升了文本纠错效果。
-
公开(公告)号:CN115374768A
公开(公告)日:2022-11-22
申请号:CN202211021117.9
申请日:2022-08-24
申请人: 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 科大讯飞(北京)有限公司
IPC分类号: G06F40/216 , G06F40/284 , G06F40/154 , G06F16/31 , G06F16/33 , G06F16/35
摘要: 本申请提供了一种新词发现方法和装置、计算机设备、存储介质,解决了现有技术中新词发现过程数据查找速度较慢的问题。其中,新词发现方法包括:采用树形存储结构对获取到的多个n元词语进行存储,多个n元词语是对预定文本序列进行n‑gram词频统计得到的,n值取从1开始的多个连续自然数,每个n元词语携带有词频和上下文信息,上下文信息包括至少一个相邻一元词语和至少一个相邻一元词语各自与n元词语的位置关系,树形存储结构的n级节点存储n元词语,同一路径中n+1级节点存储的n+1元词语取决于n级节点存储的n元词语的上下文信息;基于树形存储结构确定多个n元词语中的候选词;基于词性对候选词进行过滤,得到新词。
-
公开(公告)号:CN117520481A
公开(公告)日:2024-02-06
申请号:CN202311576882.1
申请日:2023-11-23
申请人: 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞(北京)有限公司
IPC分类号: G06F16/33 , G06F16/35 , G06F18/241 , G06F18/2431 , G06N3/096 , G06N3/09 , G06N3/088
摘要: 本发明提供一种信息检索方法、装置、电子设备和存储介质,涉及自然语言处理技术领域。其中方法包括:将用于检索的输入文本输入至意图识别模型,得到所述意图识别模型输出的意图识别结果;基于所述意图识别结果,确定所述输入文本对应的目标意图;输出所述目标意图对应的信息检索结果;其中,所述意图识别模型是基于第一样本文本和所述第一样本文本对应的第一意图标签,对初始识别模型进行训练得到的,所述初始识别模型包括多个子识别模型,任一所述子识别模型包括依次连接的预训练模型和分类器,所述多个子识别模型中的预训练模型不同。本发明提供的方法、装置、电子设备和存储介质可以提高意图识别的准确性,进而提高信息检索的准确性。
-
公开(公告)号:CN115169297A
公开(公告)日:2022-10-11
申请号:CN202210709307.3
申请日:2022-06-21
申请人: 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 科大讯飞(北京)有限公司
IPC分类号: G06F40/166 , G06F40/289 , G06F40/30
摘要: 本发明提供一种文本改写方法、装置、电子设备和存储介质,所述方法包括:获取第一文本;将目标改写等级以及第一文本输入至文本改写模型,得到文本改写模型输出的与目标改写等级对应的第二文本;文本改写模型基于第一样本文本、第二样本文本以及样本改写等级训练得到,样本改写等级基于第一样本文本与第二样本文本之间的字符相似度确定。本发明提供的文本改写方法、装置、电子设备和存储介质,基于第一样本文本、第二样本文本以及样本改写等级训练得到文本改写模型,使得文本改写模型能够根据不同目标改写等级对第一文本进行文本改写,得到与不同目标改写等级对应的第二文本,实现能够根据不同场景需求灵活变更改写文本。
-
公开(公告)号:CN117150332A
公开(公告)日:2023-12-01
申请号:CN202311139259.X
申请日:2023-09-05
申请人: 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 科大讯飞(北京)有限公司
IPC分类号: G06F18/23213 , G06F18/231 , G06F18/24
摘要: 本申请实施例公开了一种文本处理方法、装置、设备及存储介质,获得n个文本中各个文本的主题信息;对应获得的n个主题信息的n个可能的分类数中的任一大于1且小于n的分类数k,对n个主题信息进行1次或多次聚类处理,得到分类数k对应的1个或多个聚类结果;其中,多次聚类处理采用了至少两种相似度度量方法和/或采用了从n个主题信息中选择k个主题信息作为k个初始聚类中心的多个可能结果,不同次聚类使用不同的相似度度量方法衡量主题信息间的相似度和/或不同次聚类作为k个初始聚类中心的主题信息不同;基于得到的n个分类数对应的所有聚类结果确定n个主题信息的目标聚类结果。本申请提高了文本数量较小情况下的聚类效果。
-
公开(公告)号:CN116127012A
公开(公告)日:2023-05-16
申请号:CN202211551967.X
申请日:2022-12-05
申请人: 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 科大讯飞(北京)有限公司
IPC分类号: G06F16/33 , G06F40/284 , G06F40/242 , G06F40/30
摘要: 本发明涉及自然语言处理技术领域,提供一种词语推荐方法、装置、电子设备及存储介质,该方法首先获取待查询释义;然后基于反向词典模型,从候选词表中选取待查询释义对应的目标词语;最后基于目标词语,确定推荐结果。该方法利用多任务学习得到的反向词典模型对词语以及词语的词性进行预测,考虑了词语的词性,并不仅仅依赖于词库中释义的质量以及用户输入的待查询释义的质量,可以保证推荐结果的准确性,提高推荐结果的质量,进而提高用户体验感。词性的引入,可以辅助减少预测空间,对推荐结果起到约束作用,使得推荐结果更加可靠,减少了易混淆词语的干扰,避免出现推荐结果与用户输入的待查询释义相差较大的情况。
-
公开(公告)号:CN112580310B
公开(公告)日:2023-04-18
申请号:CN202011582902.2
申请日:2020-12-28
申请人: 河北省讯飞人工智能研究院 , 科大讯飞(北京)有限公司 , 科大讯飞股份有限公司
IPC分类号: G06F40/166 , G06F40/289 , G06F40/117 , G06N3/045 , G06N3/08
摘要: 本申请提供一种缺失字/词的补全方法,该方法包括用语言模型识别缺失句中缺失位置,其中语言模型为以伪数据作为输入而进行预训练所得到的模型,缺失句表征存在成分缺失错误的语句;用语言模型生成缺失位置处所缺失的多个候选字/词;对多个候选字/词进行排序,以确定缺失位置处所缺失的缺失字/词。本申请还提供相应的电子设备。通过上述方法,本申请能实现更加快速准确地对文本中字、词缺失问题进行纠正补全。
-
公开(公告)号:CN118585749A
公开(公告)日:2024-09-03
申请号:CN202410656447.8
申请日:2024-05-24
申请人: 科大讯飞(北京)有限公司 , 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院
IPC分类号: G06F18/10 , G06F18/214 , G06F40/232
摘要: 本申请公开了一种训练文本获取方法、装置、设备和存储介质,该方法包括:获取用第一语种表达的第一文本集,并确定所述第一文本集中各第一文本所属的目标类别;利用各所述目标类别对应的清洗方式清洗属于各所述目标类别的第一文本,得到用所述第一语种表达的目标文本集,所述目标文本集中的目标文本用于作为目标文本纠错模型的训练文本。通过上述方式,本申请能够提高训练文本的质量,进而能够缩短目标文本纠错模型的训练时间。
-
公开(公告)号:CN118428352A
公开(公告)日:2024-08-02
申请号:CN202410429687.4
申请日:2024-04-10
申请人: 科大讯飞(北京)有限公司 , 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院
IPC分类号: G06F40/232 , G06F16/31 , G06F16/33 , G06F16/338
摘要: 本申请提供了文本纠错方法、装置、设备、存储介质及程序产品,该方法包括:对第一文本进行文本纠错,得到第二文本;将第二文本的字符单元与第一文本的字符单元进行匹配,确定第二文本的索引向量,索引向量用于表示第二文本中的字符单元与第一文本中的字符单元之间的匹配关系;对索引向量进行编码得到第一文本编码,以及对第二文本进行编码得到第二文本编码,第二文本编码包含第二文本中各个字符单元的位置关系信息;基于第一文本编码和第二文本编码,预测第二文本中的目标文本,目标文本包括对第一文本的纠错结果文本。根据本申请的技术方案,能够有效提升输出的文本纠错结果的准确性。
-
-
-
-
-
-
-
-
-