-
公开(公告)号:CN118585749A
公开(公告)日:2024-09-03
申请号:CN202410656447.8
申请日:2024-05-24
申请人: 科大讯飞(北京)有限公司 , 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院
IPC分类号: G06F18/10 , G06F18/214 , G06F40/232
摘要: 本申请公开了一种训练文本获取方法、装置、设备和存储介质,该方法包括:获取用第一语种表达的第一文本集,并确定所述第一文本集中各第一文本所属的目标类别;利用各所述目标类别对应的清洗方式清洗属于各所述目标类别的第一文本,得到用所述第一语种表达的目标文本集,所述目标文本集中的目标文本用于作为目标文本纠错模型的训练文本。通过上述方式,本申请能够提高训练文本的质量,进而能够缩短目标文本纠错模型的训练时间。
-
公开(公告)号:CN118428352A
公开(公告)日:2024-08-02
申请号:CN202410429687.4
申请日:2024-04-10
申请人: 科大讯飞(北京)有限公司 , 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院
IPC分类号: G06F40/232 , G06F16/31 , G06F16/33 , G06F16/338
摘要: 本申请提供了文本纠错方法、装置、设备、存储介质及程序产品,该方法包括:对第一文本进行文本纠错,得到第二文本;将第二文本的字符单元与第一文本的字符单元进行匹配,确定第二文本的索引向量,索引向量用于表示第二文本中的字符单元与第一文本中的字符单元之间的匹配关系;对索引向量进行编码得到第一文本编码,以及对第二文本进行编码得到第二文本编码,第二文本编码包含第二文本中各个字符单元的位置关系信息;基于第一文本编码和第二文本编码,预测第二文本中的目标文本,目标文本包括对第一文本的纠错结果文本。根据本申请的技术方案,能够有效提升输出的文本纠错结果的准确性。
-
公开(公告)号:CN117291155A
公开(公告)日:2023-12-26
申请号:CN202311301470.7
申请日:2023-10-09
申请人: 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 科大讯飞(北京)有限公司
IPC分类号: G06F40/166 , G06F40/232 , G06F40/253 , G06F40/279 , G06F40/30 , G06F40/58 , G06F18/214
摘要: 本申请提供了一种数据生成方法、模型训练方法、文本纠错方法及相关装置,包括:获取特定领域的文本训练数据;根据所述文本训练数据中的单词的词性,对所述文本训练数据中的单词进行编辑操作,得到目标伪数据;其中,所述编辑操作包括拼写编辑操作和/或语法编辑操作,所述拼写编辑操作包括对所述文本训练数据中的单词进行与单词词性相对应的拼写编辑操作,以使单词拼写错误;所述语法编辑操作包括对所述文本训练数据中的单词进行与单词词性相对应的语法编辑操作,以使所述文本训练数据的语法错误。根据本申请的技术方案,能够有效生成特定领域的伪数据,从而提升模型对特定领域的文本数据的纠错效果。
-
公开(公告)号:CN118246412A
公开(公告)日:2024-06-25
申请号:CN202410349084.3
申请日:2024-03-26
申请人: 科大讯飞(北京)有限公司 , 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院
IPC分类号: G06F40/166 , G06F40/232 , G06F40/284 , G06N20/00
摘要: 本申请公开了一种文本润色训练数据筛选方法、装置、相关设备及计算机程序产品,本申请在获取到文本润色任务数据集后,调用人工智能大模型,通过第一提示指令prompt指示大模型结合给定的评测标准对每条润色任务进行评测,给出评测结果,借助大模型的能力可以更加准确的得到每条润色任务的质量评测结果,与人类专家给出的评测结果更加接近,可以节省大量人力并避免由于主观偏见造成的评测结果波动。在此基础上,可以筛选出满足设定评测结果要求的润色任务作为最终的润色训练数据,得到高质量的润色训练数据。以筛选得到的高质量的润色训练数据训练处理文本润色任务的模型时,可以提升模型的训练效果。
-
公开(公告)号:CN117973369A
公开(公告)日:2024-05-03
申请号:CN202410153454.6
申请日:2024-02-02
申请人: 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 科大讯飞(北京)有限公司
IPC分类号: G06F40/232 , G06F40/284 , G06F40/242 , G06F18/214 , G06F18/213 , G06F18/2411 , G06F18/25
摘要: 本申请公开了一种文本纠错方法、装置、相关设备及计算机程序产品,本申请分别采用通用词典和目标领域的专业词典对待纠错文本进行分词,得到第一分词结果和第二分词结果,由第一分词结果确定通用词典向量,由第二分词结果确定专业词典向量,对两种词典向量进行融合,基于融合向量确定待纠错文本对应的纠错后文本。通用词典向量涵盖了待纠错文本中可能存在的一般性错误信息,专业词典向量涵盖了待纠错文本中可能存在的目标领域下专业词汇的拼写错误信息,基于融合向量确定待纠错文本的纠错后文本,保证了本申请方案对常见的一般性错误的纠错能力,以及对特定垂类领域的专业词汇的拼写错误的纠错能力,大大提升了文本纠错效果。
-
公开(公告)号:CN117150332A
公开(公告)日:2023-12-01
申请号:CN202311139259.X
申请日:2023-09-05
申请人: 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 科大讯飞(北京)有限公司
IPC分类号: G06F18/23213 , G06F18/231 , G06F18/24
摘要: 本申请实施例公开了一种文本处理方法、装置、设备及存储介质,获得n个文本中各个文本的主题信息;对应获得的n个主题信息的n个可能的分类数中的任一大于1且小于n的分类数k,对n个主题信息进行1次或多次聚类处理,得到分类数k对应的1个或多个聚类结果;其中,多次聚类处理采用了至少两种相似度度量方法和/或采用了从n个主题信息中选择k个主题信息作为k个初始聚类中心的多个可能结果,不同次聚类使用不同的相似度度量方法衡量主题信息间的相似度和/或不同次聚类作为k个初始聚类中心的主题信息不同;基于得到的n个分类数对应的所有聚类结果确定n个主题信息的目标聚类结果。本申请提高了文本数量较小情况下的聚类效果。
-
-
-
-
-