-
公开(公告)号:CN114492453A
公开(公告)日:2022-05-13
申请号:CN202111677576.8
申请日:2021-12-31
Applicant: 中科讯飞互联(北京)信息科技有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司
IPC: G06F40/30 , G06F40/289 , G06F40/232 , G06N3/04 , G06N3/08
Abstract: 本申请提供了一种文本纠错方法及装置、存储介质及电子设备,涉及文本处理技术领域。该文本纠错方法包括:利用错误检测模型,判断待纠错文本是否有误;若待纠错文本有误,利用错误修正模型,确定待纠错文本对应的修正文本,其中,错误检测模型由对抗生成网络中的判别器训练得到,错误修正模型由对抗生成网络中的生成器训练得到。该文本纠错方法只针对有误文本进行纠错任务,减少了错误修正模型的计算量,提高了文本纠错系统的运行速度。
-
公开(公告)号:CN114357985A
公开(公告)日:2022-04-15
申请号:CN202111647750.4
申请日:2021-12-29
Applicant: 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院 , 中科讯飞互联(北京)信息科技有限公司
IPC: G06F40/253 , G06F40/289 , G06F40/30 , G06K9/62
Abstract: 本申请实施例提供了一种文本数据生成方法、计算机设备及存储介质,文本数据生成方法包括:获取无语法缺陷的第三文本;将所述第三文本输入生成模型,生成所述第三文本对应的第一生成文本,和用于指示所述第一生成文本存在语法缺陷的目标概率,所述生成模型是基于无语法缺陷的第一文本和有语法缺陷的第二文本训练得到的;根据所述第一生成文本对应的目标概率,确定所述第一生成文本为目标文本。生成模型学习到第二文本对应的语法错误规律,训练后的生成模型能够发挥生成结果多样的优异特性,可以自动构建出大量包含语法缺陷的文本。
-
公开(公告)号:CN114357964A
公开(公告)日:2022-04-15
申请号:CN202111632605.9
申请日:2021-12-28
Applicant: 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院 , 中科讯飞互联(北京)信息科技有限公司
IPC: G06F40/194 , G06F40/30 , G06Q50/20
Abstract: 本申请实施例提供了一种主观题评分方法、模型的训练方法、计算机设备及存储介质,评分方法包括:获取标准答案中的若干要点文本和每个要点文本的要点满分分值;获取考生作答文本;对要点文本和考生作答文本进行匹配处理,得到考生作答文本与要点文本的匹配程度;根据每个要点文本的要点满分分值,及考生作答文本与每个要点文本的匹配程度,确定考生作答文本对应的作答分值。对要点文本和考生作答文本进行匹配处理,确定考生作答文本与要点文本的匹配程度,根据匹配程度确定考生作答文本对应的作答分值;可以在评分过程中利用标准答案中每个要点所占分值之间的分值关系这一有效信息,因此评分的准确性较高,可以降低与人工评分之间的误差。
-
公开(公告)号:CN114282527A
公开(公告)日:2022-04-05
申请号:CN202111576592.8
申请日:2021-12-22
Applicant: 中科讯飞互联(北京)信息科技有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司
IPC: G06F40/232 , G06F40/30 , G06F40/58 , G06F40/242 , G06F40/289 , G06F16/35 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种多语言文本检测与纠错方法、系统、电子设备及存储介质,所述方法包括获取待检测文本,并对所述待检测文本进行多语言字符识别以得到至少一个待识别语句;对所述待识别语句中的目标语言的字符进行语种检测,得到待检测语种单词,并对所述待检测语种单词进行拼写检测和语义检测;若至少一个所述待检测语种单词存在拼写错误和/或语义错误,则对存在拼写错误和/或语义错误的单词进行对应的拼写纠错和/或语义纠错。本发明可以更好地理解跨语言语境下的文本语义,对文本中的所有目标语言的字符进行检测并只对检测有错误的单词进行纠正。
-
公开(公告)号:CN114282046A
公开(公告)日:2022-04-05
申请号:CN202111601552.4
申请日:2021-12-24
Applicant: 中科讯飞互联(北京)信息科技有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司
IPC: G06F16/683 , G06F16/65 , G06F16/635 , G06F16/632 , G06F40/30
Abstract: 本申请提供了一种风格语料获取方法及相关方法和设备,其中,风格语料获取方法可实现风格语料的自动获取,且该风格语料获取方法可获取到质量较佳的风格语料,在本申请提供的风格语料获取方法的基础上,本申请还提供了一种风格迁移模型构建方法,该风格迁移模型构建方法可基于本申请提供的风格语料获取方法获取的风格语料集构建风格迁移模型,在本申请提供的风格迁移模型构建方法的基础上,本申请还提供了一种风格迁移方法,该风格迁移方法可将待处理文本输入利用本申请提供的风格迁移模型构建方法构建的风格迁移模型进行处理,从而得到风格迁移模型输出的风格文本。
-
公开(公告)号:CN114241279A
公开(公告)日:2022-03-25
申请号:CN202111651496.5
申请日:2021-12-30
Applicant: 中科讯飞互联(北京)信息科技有限公司 , 科大讯飞股份有限公司
Abstract: 本申请公开一种图文联合纠错方法、装置、存储介质及计算机设备。该方法包括:获取待处理的文本数据和图像数据,文本数据包括目标文本,图像数据包括场景图片;提取文本数据的文本向量表示,文本向量表示包含目标文本的文本信息;提取图像数据的图片向量表示,图片向量表示包含场景图片的图像信息;根据文本向量表示与图片向量表示,计算包含有文本信息和图像信息的多模态向量表示;在目标文本用于表达场景图片时,根据多模态向量表示确定针对目标文本和场景图片的纠错结果,以根据纠错结果对图文进行纠错,实现了图文联合纠错,提升了纠错能力。
-
公开(公告)号:CN114154497A
公开(公告)日:2022-03-08
申请号:CN202111467935.7
申请日:2021-12-03
Applicant: 科大讯飞河北科技有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 中科讯飞互联(北京)信息科技有限公司
IPC: G06F40/289 , G06F40/211 , G06F40/30 , G06K9/62
Abstract: 本发明提供一种语病识别方法、装置、电子设备和存储介质,所述方法包括:确定待识别语句;提取待识别语句中各分词的分词表示;基于待识别语句中各分词的分词表示,以及待识别语句的句法结构,对待识别语句进行语病识别;分词表示用于表征对应分词的上下文语义和对应分词与待识别语句中其余分词间的句法依赖关系。本发明提供的语病识别方法、装置、电子设备和存储介质,能够结合语义信息和句法信息对待识别语句中的句法结构问题和语义问题进行病句识别,进而准确得到病句识别结果。
-
公开(公告)号:CN113705240A
公开(公告)日:2021-11-26
申请号:CN202110888038.7
申请日:2021-08-03
Applicant: 中科讯飞互联(北京)信息科技有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种基于多语种分支模型的文本处理方法及相关装置,所述多语种分支模型包括嵌入层、多分支处理网络、第一混合器、共享网络和输出层,所述文本处理方法包括:基于所述嵌入层,获得待处理的文本对应的初始语义表示;基于所述多分支处理网络、所述第一混合器以及所述共享网络,对所述初始语义表示进行处理以获得综合语义表示;基于所述输出层,对所述综合语义表示进行变换以获得输出结果。通过上述方式,本申请能够在具备多语种处理能力的基础上,提高处理结果的精确度。
-
公开(公告)号:CN113158648A
公开(公告)日:2021-07-23
申请号:CN202011449650.6
申请日:2020-12-09
Applicant: 中科讯飞互联(北京)信息科技有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司
IPC: G06F40/232 , G06F40/289
Abstract: 本申请公开了一种文本补全方法以及电子设备、存储装置,其中文本补全方法包括:获取待补全文本,并确定待补全文本的缺失内容所源自的文本库;其中,待补全文本包括至少一个缺失位置;利用文本库对待补全文本进行补全预测,得到缺失位置的至少一个候选词语;利用各个缺失位置的候选词语,得到待补全文本的完整文本。上述方案,能够提高文本补全的效率并降低文本补全的成本。
-
公开(公告)号:CN110008327B
公开(公告)日:2022-01-14
申请号:CN201910257194.6
申请日:2019-04-01
Applicant: 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 中科讯飞互联(北京)信息科技有限公司
IPC: G06F16/332 , G06F16/33 , G06F40/295 , G06Q50/18
Abstract: 本发明实施例提供一种法律回答生成方法及装置,属于自然语言处理技术领域。包括:获取问题数据,问题数据与法律咨询相关;将问题数据输入至强化学习模型中,输出回答数据。由于强化学习模型是基于初始模型训练得到的,而初始模型的类型为编解码模型,而不是基于历史信息检索,从而不需要依赖于历史的法律问答数据,可以针对法律提问创造出新的回答数据。因此,能够提供覆盖范围较广的回答。其次,由于初始模型的类型为编解码模型,从而不需要以三元组的形式表示训练数据,进而经初始模型训练得到的强化学习模型更适用于法律提问的回答。
-
-
-
-
-
-
-
-
-