-
公开(公告)号:CN115099222B
公开(公告)日:2025-04-08
申请号:CN202210474457.0
申请日:2022-04-29
Applicant: 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 科大讯飞(北京)有限公司
IPC: G06F40/226 , G06F40/216 , G06F40/232 , G06F16/353 , G06N3/045
Abstract: 本申请公开了一种标点符号误用检测纠正方法、装置、设备及存储介质,该方法包括以下步骤:将获取的待检测文本输入到已训练的纠错模型中进行第一检测,以获得多个位置的第一预测纠正结果,第一预测纠正结果中包括对每一位置预测执行的修改操作类型、每一位置对应的预测纠正后的标点符号类型;基于每一位置预测执行的修改操作类型,确定每一位置所应执行的第二检测的检测方式;基于确定的检测方式进行第二检测,以获得每一位置的第二预测纠正结果;基于每一位置对应的第一预测纠正结果和/或第二预测纠正结果,确定每一位置的目标纠正结果。
-
公开(公告)号:CN119577095A
公开(公告)日:2025-03-07
申请号:CN202411703340.0
申请日:2024-11-26
Applicant: 科大讯飞股份有限公司 , 科大讯飞(北京)有限公司 , 河北省讯飞人工智能研究院
IPC: G06F16/3329 , G06F18/2411 , G06F18/214
Abstract: 本申请公开了一种智能问答方法及相关装置,涉及自然语言处理技术领域,包括:在获取用户输入的问题,以及与问题对应的目标文档之后;先确定问题的向量以及目标文档对应的多个文本片段的向量,目标文档对应的多个文本片段是基于文档结构从多个粒度对目标文档进行切分得到的;再基于问题的向量以及目标文档对应的多个文本片段的向量之间的相似度,确定候选文本片段;最后基于候选文本片段,生成问题对应的答案。在本申请中,通过基于文档结构的多粒度切分策略,可以在不损失目标文档原文信息完整性的前提下,实现后续步骤中对目标文档进行更高效地解析和分析,以便更准确的检索出与问题相关的信息,进而提升答案的准确性和可靠性。
-
公开(公告)号:CN119514562A
公开(公告)日:2025-02-25
申请号:CN202411424535.1
申请日:2024-10-12
Applicant: 科大讯飞股份有限公司 , 科大讯飞(北京)有限公司 , 河北省讯飞人工智能研究院
IPC: G06F40/58 , G06F40/253 , G06F40/242 , G06F40/284 , G06F18/22 , G06N3/042 , G06N3/0464
Abstract: 本申请公开了一种文本翻译方法、装置、设备和存储介质,该方法包括:获取与待翻译文本的语法结构匹配的匹配翻译语料;生成包含所述待翻译文本和所述匹配翻译语料的提示文本;将所述提示文本输入翻译模型,以指示所述翻译模型参考所述匹配翻译语料输出所述待翻译文本对应的翻译结果。通过上述方法,本申请能够提高翻译的准确性。
-
公开(公告)号:CN118585749A
公开(公告)日:2024-09-03
申请号:CN202410656447.8
申请日:2024-05-24
Applicant: 科大讯飞(北京)有限公司 , 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院
IPC: G06F18/10 , G06F18/214 , G06F40/232
Abstract: 本申请公开了一种训练文本获取方法、装置、设备和存储介质,该方法包括:获取用第一语种表达的第一文本集,并确定所述第一文本集中各第一文本所属的目标类别;利用各所述目标类别对应的清洗方式清洗属于各所述目标类别的第一文本,得到用所述第一语种表达的目标文本集,所述目标文本集中的目标文本用于作为目标文本纠错模型的训练文本。通过上述方式,本申请能够提高训练文本的质量,进而能够缩短目标文本纠错模型的训练时间。
-
公开(公告)号:CN118428352A
公开(公告)日:2024-08-02
申请号:CN202410429687.4
申请日:2024-04-10
Applicant: 科大讯飞(北京)有限公司 , 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院
IPC: G06F40/232 , G06F16/31 , G06F16/33 , G06F16/338
Abstract: 本申请提供了文本纠错方法、装置、设备、存储介质及程序产品,该方法包括:对第一文本进行文本纠错,得到第二文本;将第二文本的字符单元与第一文本的字符单元进行匹配,确定第二文本的索引向量,索引向量用于表示第二文本中的字符单元与第一文本中的字符单元之间的匹配关系;对索引向量进行编码得到第一文本编码,以及对第二文本进行编码得到第二文本编码,第二文本编码包含第二文本中各个字符单元的位置关系信息;基于第一文本编码和第二文本编码,预测第二文本中的目标文本,目标文本包括对第一文本的纠错结果文本。根据本申请的技术方案,能够有效提升输出的文本纠错结果的准确性。
-
公开(公告)号:CN117291155A
公开(公告)日:2023-12-26
申请号:CN202311301470.7
申请日:2023-10-09
Applicant: 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 科大讯飞(北京)有限公司
IPC: G06F40/166 , G06F40/232 , G06F40/253 , G06F40/279 , G06F40/30 , G06F40/58 , G06F18/214
Abstract: 本申请提供了一种数据生成方法、模型训练方法、文本纠错方法及相关装置,包括:获取特定领域的文本训练数据;根据所述文本训练数据中的单词的词性,对所述文本训练数据中的单词进行编辑操作,得到目标伪数据;其中,所述编辑操作包括拼写编辑操作和/或语法编辑操作,所述拼写编辑操作包括对所述文本训练数据中的单词进行与单词词性相对应的拼写编辑操作,以使单词拼写错误;所述语法编辑操作包括对所述文本训练数据中的单词进行与单词词性相对应的语法编辑操作,以使所述文本训练数据的语法错误。根据本申请的技术方案,能够有效生成特定领域的伪数据,从而提升模型对特定领域的文本数据的纠错效果。
-
公开(公告)号:CN117033567A
公开(公告)日:2023-11-10
申请号:CN202310492862.X
申请日:2023-04-28
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F40/166 , G06F40/216 , G06F3/04842
Abstract: 本申请公开了一种文稿生成方法及相关装置、电子设备和存储介质,其中,文稿生成方法包括:获取用户关于期望输出文稿的需求文本,再响应于用户对需求文本的确认操作,基于需求文本,生成第一目标文稿。上述方案,能够提高生成文稿的效率和精度。
-
公开(公告)号:CN115455193A
公开(公告)日:2022-12-09
申请号:CN202210997221.5
申请日:2022-08-18
Applicant: 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 科大讯飞(北京)有限公司
IPC: G06F16/36 , G06F40/279 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本申请提出一种知识图谱补全方法、装置、电子设备及存储介质,方法包括:对待预测三元组中的头实体和尾实体进行信息交互融合,得到头实体对应的代理头实体和尾实体对应的代理尾实体;通过计算按照待预测三元组中的头尾实体关系对代理头实体进行平移变换得到的实体与代理尾实体之间的差异,确定待预测三元组成立的概率;若待预测三元组成立的概率达到预设阈值,则利用待预测三元组对知识图谱进行补全。采用本申请的技术方案,可以实现三元组中头实体和尾实体的信息交互融合,利用实体信息交互后的代理头实体和代理尾实体判断三元组是否成立,能够提高事实三元组的判定准确性和知识图谱补全的准确度。
-
公开(公告)号:CN113157880A
公开(公告)日:2021-07-23
申请号:CN202110319845.7
申请日:2021-03-25
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/383 , G06F40/126 , G06F40/30 , G06Q50/18
Abstract: 本申请提供了一种要素内容获取方法、装置、设备及存储介质,其中,方法包括:获取目标案情文本;基于目标案情文本确定目标要素,并基于目标案情文本和目标要素确定目标要素对应的要素表示向量,其中,目标要素对应的要素表示向量用于表征目标要素在目标案情文本中的语义;基于目标案情文本和目标要素对应的要素表示向量,获取目标要素对应的要素内容。本申请提供的要素内容获取方法可根据目标案情文本自动确定出目标要素,并可根据目标案情文本和目标要素对应的要素表示向量自动确定出目标要素对应的要素内容。
-
公开(公告)号:CN111310457A
公开(公告)日:2020-06-19
申请号:CN202010125461.7
申请日:2020-02-27
Applicant: 科大讯飞股份有限公司
IPC: G06F40/284 , G06F40/289 , G06F40/216 , G06F40/211
Abstract: 本发明实施例提供一种词语搭配不当识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别文本中的存在搭配关系的两个待识别词;将待识别文本中的任一待识别词替换为遮盖标记,得到任一待识别词对应的输入文本;将任一待识别词对应的输入文本输入至词语预测模型,得到词语预测模型输出的任一待识别词的预测结果;其中,词语预测模型是基于样本文本训练得到的;基于两个待识别词的预测结果,确定词语搭配不当识别结果。本发明实施例提供的词语搭配不当识别方法、装置、电子设备和存储介质,能够基于待识别文本的语境,识别出语义层面上搭配不当的词语,提高了词语搭配不当识别的准确率。
-
-
-
-
-
-
-
-
-