-
公开(公告)号:CN105589843A
公开(公告)日:2016-05-18
申请号:CN201410577735.0
申请日:2014-10-24
Applicant: 科大讯飞股份有限公司
IPC: G06F17/27
Abstract: 本发明公开了一种文本字串匹配方法及系统,该方法包括:获得由待匹配的第一文本字串和第二文本字串形成的第一历史路径累积矩阵;判断第一历史路径累积矩阵中待匹配的第一字符与第二字符是否相同;如果否,则获取第一字符的第一音串序列和第二字符的第二音串序列;计算第一音串序列与第二音串序列的音层面匹配代价;更新第一历史路径累积矩阵;将第一文本字串中的另一字符作为第一字符,将第二文本字串中的另一字符作为第二字符,重复执行判断第一历史路径累积矩阵中的第一字符与第二字符是否相同,直至第一历史路径累积矩阵更新完成,获得最终匹配代价。本发明能够提高文本字串匹配结果的有效性,满足用户不同应用需求。
-
公开(公告)号:CN114254623B
公开(公告)日:2025-05-13
申请号:CN202111527097.8
申请日:2021-12-14
Applicant: 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 科大讯飞(北京)有限公司
IPC: G06F40/232 , G06F40/30 , G06F40/211 , G06F16/35 , G06N20/00 , G06N3/045 , G06N3/0464 , G06N3/0442 , G06N3/088
Abstract: 本申请提供了一种文本纠错方法、装置、设备及存储介质,方法包括:获取待纠错文本;获取多个位置分别对应的候选字符集合,所述位置对应的候选字符集合包括与位于待纠错文本中所述位置的字符的具有关联关系的候选字符;获取多个候选文本分别对应的关联分数,候选文本的每一位置的字符为该位置对应的候选字符集合中的候选字符;根据多个候选文本分别对应的关联分数,从多个候选文本中确定待纠错文本对应的纠正后文本。由于本申请考虑了候选文本的各位置的候选字符之间的关联关系,因此,候选文本的关联分数能够体现候选文本作为一个整体的准确程度,根据候选文本分别对应的关联分数,能够准确地确定出待纠错文本对应的纠正后文本。
-
公开(公告)号:CN114254587B
公开(公告)日:2025-04-29
申请号:CN202111538297.3
申请日:2021-12-15
Applicant: 科大讯飞股份有限公司
IPC: G06F40/117 , G10L15/04 , G10L15/16 , G10L15/26
Abstract: 本发明提供一种主题段落划分方法、装置、电子设备及存储介质,首先获取目标文本;目标文本基于对目标音频进行转写得到,目标文本携带有目标音频中的音频片段标识,音频片段标识包括说话人标识、听众标识以及静音标识;然后基于音频片段标识,对目标文本进行语句划分及标点标注,得到待划分文本;最后确定待划分文本中各语句的向量表征,基于待划分文本中各语句的向量表征和/或音频片段标识,对待划分文本进行主题段落划分。引入了目标音频中的音频片段标识,结合该音频片段标识得到待划分文本,并对待划分文本进行主题段落划分,可以充分利用目标音频中包含的信息,降低目标文本的可信度对划分结果的影响,使得主题段落的划分结果更加准确。
-
公开(公告)号:CN115099222B
公开(公告)日:2025-04-08
申请号:CN202210474457.0
申请日:2022-04-29
Applicant: 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 科大讯飞(北京)有限公司
IPC: G06F40/226 , G06F40/216 , G06F40/232 , G06F16/353 , G06N3/045
Abstract: 本申请公开了一种标点符号误用检测纠正方法、装置、设备及存储介质,该方法包括以下步骤:将获取的待检测文本输入到已训练的纠错模型中进行第一检测,以获得多个位置的第一预测纠正结果,第一预测纠正结果中包括对每一位置预测执行的修改操作类型、每一位置对应的预测纠正后的标点符号类型;基于每一位置预测执行的修改操作类型,确定每一位置所应执行的第二检测的检测方式;基于确定的检测方式进行第二检测,以获得每一位置的第二预测纠正结果;基于每一位置对应的第一预测纠正结果和/或第二预测纠正结果,确定每一位置的目标纠正结果。
-
公开(公告)号:CN114357985B
公开(公告)日:2025-04-08
申请号:CN202111647750.4
申请日:2021-12-29
Applicant: 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞(北京)有限公司
IPC: G06F40/253 , G06F40/289 , G06F40/30 , G06F18/214
Abstract: 本申请实施例提供了一种文本数据生成方法、计算机设备及存储介质,文本数据生成方法包括:获取无语法缺陷的第三文本;将所述第三文本输入生成模型,生成所述第三文本对应的第一生成文本,和用于指示所述第一生成文本存在语法缺陷的目标概率,所述生成模型是基于无语法缺陷的第一文本和有语法缺陷的第二文本训练得到的;根据所述第一生成文本对应的目标概率,确定所述第一生成文本为目标文本。生成模型学习到第二文本对应的语法错误规律,训练后的生成模型能够发挥生成结果多样的优异特性,可以自动构建出大量包含语法缺陷的文本。
-
公开(公告)号:CN114357950B
公开(公告)日:2024-12-10
申请号:CN202111665477.8
申请日:2021-12-31
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
IPC: G06F40/166 , G06F40/35 , G06F16/2458 , G06F16/23
Abstract: 本申请公开一种数据改写方法、装置、存储介质及计算机设备。该方法包括:基于历史时间段内的用户交互行为数据,挖掘改写数据,以根据改写数据构建改写数据库,改写数据包括历史时间段内的所有的改写组合对,每一改写组合对包括一个错误话语和一个正确话语;基于历史时间段内每天产生的日志数据,增量更新改写数据库,以纠正改写数据库中交互失败的数据;基于改写数据库构建改写引擎,改写引擎用于将待测文本中的错误话语进行改写,可以实现基于用户交互行为的数据改写,对于识别错误或者说法泛化的话语,可以显著提升语义理解正确率,提升交互成功率。
-
公开(公告)号:CN114281996B
公开(公告)日:2024-10-29
申请号:CN202111619122.5
申请日:2021-12-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例提供一种长文本分类方法、装置、设备及存储介质,该方法包括:将获取的目标长文本划分成N个序列后输入目标模型中,分别得到N个序列的文本表示,N为正整数;对N个序列的文本表示进行融合,得到目标长文本的篇章表示;根据目标长文本的篇章表示,得到目标长文本的分类结果。也就是说,本申请将目标长文本的N个序列的文本表示进行融合,得到整个目标长文本的篇章表示,基于整个目标长文本的篇章表示进行分类,即在分类过程中考虑了整个文本的语义信息和上下文信息,进而提高了目标长文本的分类准确性。
-
公开(公告)号:CN112700769B
公开(公告)日:2024-07-05
申请号:CN202011569220.8
申请日:2020-12-26
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
IPC: G10L15/18 , G10L15/183 , G10L15/26
Abstract: 本申请公开了一种语义理解方法、装置、设备以及计算机可读存储介质,该方法包括:在获取到当前语音段之后,先对该当前语音段进行语音识别,得到当前文本段;再根据该当前文本段和该当前文本段对应的未识别文本段,生成待识别文本段,以便在确定该待识别文本段包括完整性语句之后,对该待识别文本段进行语义理解。其中,因当前语音段是指在当前时刻下实时采集的用户语音,使得本申请提供的语义理解方法能够针对实时采集的用户语音进行实时地语义理解,从而能够实现边采集用户语音边进行语义理解的目的,如此能够提高语义理解的实时性,从而能够提高人机交互设备的反馈实时性。
-
公开(公告)号:CN112633007B
公开(公告)日:2024-04-30
申请号:CN202011519649.6
申请日:2020-12-21
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
IPC: G06F40/30 , G06F40/42 , G06F40/211 , G06F40/205 , G06N3/0442 , G06N3/0455 , G06N3/08
Abstract: 本申请公开了一种语义理解模型构建方法及装置、语义理解方法及装置,该语义理解模型构建方法包括:在获取到多语语料之后,先根据该多语语料生成训练样本、该训练样本的实际语种和该训练样本的实际语义信息,并将该训练样本输入多语种理解模型,得到该多语种理解模型输出的该训练样本的预测语种和该训练样本的预测语义信息;再根据该训练样本的预测语种、实际语种、预测语义信息及其实际语义信息,更新该多语种理解模型,并继续执行上述将该训练样本输入多语种理解模型的步骤,直至在达到预设停止条件时,根据该多语种理解模型构建语义理解模型,以使该语义理解模型能够对该至少两个语种下的语句进行语义理解。
-
公开(公告)号:CN112700768B
公开(公告)日:2024-04-26
申请号:CN202011487548.5
申请日:2020-12-16
Applicant: 科大讯飞股份有限公司 , 吉林科讯信息科技有限公司
Abstract: 本申请公开了一种语音识别方法以及电子设备、存储装置,其中,语音识别方法包括:识别用户的语音指令,得到一个第一候选文本和至少一个第二候选文本;其中,第二候选文本的识别置信度与第一候选文本的识别置信度符合预设关系;响应于第一候选文本的第一语义理解结果不满足预设结果条件,更新第二候选文本的识别置信度;基于识别置信度,获取第二候选文本的第二语义理解结果,并利用第二语义理解结果,得到语音指令的识别结果。上述方案,能够提高语音识别的准确性和鲁棒性。
-
-
-
-
-
-
-
-
-