一种文本字串匹配方法及系统

    公开(公告)号:CN105589843A

    公开(公告)日:2016-05-18

    申请号:CN201410577735.0

    申请日:2014-10-24

    Abstract: 本发明公开了一种文本字串匹配方法及系统,该方法包括:获得由待匹配的第一文本字串和第二文本字串形成的第一历史路径累积矩阵;判断第一历史路径累积矩阵中待匹配的第一字符与第二字符是否相同;如果否,则获取第一字符的第一音串序列和第二字符的第二音串序列;计算第一音串序列与第二音串序列的音层面匹配代价;更新第一历史路径累积矩阵;将第一文本字串中的另一字符作为第一字符,将第二文本字串中的另一字符作为第二字符,重复执行判断第一历史路径累积矩阵中的第一字符与第二字符是否相同,直至第一历史路径累积矩阵更新完成,获得最终匹配代价。本发明能够提高文本字串匹配结果的有效性,满足用户不同应用需求。

    主题段落划分方法、装置、电子设备及存储介质

    公开(公告)号:CN114254587B

    公开(公告)日:2025-04-29

    申请号:CN202111538297.3

    申请日:2021-12-15

    Abstract: 本发明提供一种主题段落划分方法、装置、电子设备及存储介质,首先获取目标文本;目标文本基于对目标音频进行转写得到,目标文本携带有目标音频中的音频片段标识,音频片段标识包括说话人标识、听众标识以及静音标识;然后基于音频片段标识,对目标文本进行语句划分及标点标注,得到待划分文本;最后确定待划分文本中各语句的向量表征,基于待划分文本中各语句的向量表征和/或音频片段标识,对待划分文本进行主题段落划分。引入了目标音频中的音频片段标识,结合该音频片段标识得到待划分文本,并对待划分文本进行主题段落划分,可以充分利用目标音频中包含的信息,降低目标文本的可信度对划分结果的影响,使得主题段落的划分结果更加准确。

    数据改写方法、装置、存储介质及计算机设备

    公开(公告)号:CN114357950B

    公开(公告)日:2024-12-10

    申请号:CN202111665477.8

    申请日:2021-12-31

    Inventor: 王涛 刘权 陈志刚

    Abstract: 本申请公开一种数据改写方法、装置、存储介质及计算机设备。该方法包括:基于历史时间段内的用户交互行为数据,挖掘改写数据,以根据改写数据构建改写数据库,改写数据包括历史时间段内的所有的改写组合对,每一改写组合对包括一个错误话语和一个正确话语;基于历史时间段内每天产生的日志数据,增量更新改写数据库,以纠正改写数据库中交互失败的数据;基于改写数据库构建改写引擎,改写引擎用于将待测文本中的错误话语进行改写,可以实现基于用户交互行为的数据改写,对于识别错误或者说法泛化的话语,可以显著提升语义理解正确率,提升交互成功率。

    长文本分类方法、装置、设备及存储介质

    公开(公告)号:CN114281996B

    公开(公告)日:2024-10-29

    申请号:CN202111619122.5

    申请日:2021-12-27

    Abstract: 本申请实施例提供一种长文本分类方法、装置、设备及存储介质,该方法包括:将获取的目标长文本划分成N个序列后输入目标模型中,分别得到N个序列的文本表示,N为正整数;对N个序列的文本表示进行融合,得到目标长文本的篇章表示;根据目标长文本的篇章表示,得到目标长文本的分类结果。也就是说,本申请将目标长文本的N个序列的文本表示进行融合,得到整个目标长文本的篇章表示,基于整个目标长文本的篇章表示进行分类,即在分类过程中考虑了整个文本的语义信息和上下文信息,进而提高了目标长文本的分类准确性。

    一种语义理解方法、装置、设备以及计算机可读存储介质

    公开(公告)号:CN112700769B

    公开(公告)日:2024-07-05

    申请号:CN202011569220.8

    申请日:2020-12-26

    Abstract: 本申请公开了一种语义理解方法、装置、设备以及计算机可读存储介质,该方法包括:在获取到当前语音段之后,先对该当前语音段进行语音识别,得到当前文本段;再根据该当前文本段和该当前文本段对应的未识别文本段,生成待识别文本段,以便在确定该待识别文本段包括完整性语句之后,对该待识别文本段进行语义理解。其中,因当前语音段是指在当前时刻下实时采集的用户语音,使得本申请提供的语义理解方法能够针对实时采集的用户语音进行实时地语义理解,从而能够实现边采集用户语音边进行语义理解的目的,如此能够提高语义理解的实时性,从而能够提高人机交互设备的反馈实时性。

    一种语义理解模型构建方法及装置、语义理解方法及装置

    公开(公告)号:CN112633007B

    公开(公告)日:2024-04-30

    申请号:CN202011519649.6

    申请日:2020-12-21

    Inventor: 王涛 刘权 陈志刚

    Abstract: 本申请公开了一种语义理解模型构建方法及装置、语义理解方法及装置,该语义理解模型构建方法包括:在获取到多语语料之后,先根据该多语语料生成训练样本、该训练样本的实际语种和该训练样本的实际语义信息,并将该训练样本输入多语种理解模型,得到该多语种理解模型输出的该训练样本的预测语种和该训练样本的预测语义信息;再根据该训练样本的预测语种、实际语种、预测语义信息及其实际语义信息,更新该多语种理解模型,并继续执行上述将该训练样本输入多语种理解模型的步骤,直至在达到预设停止条件时,根据该多语种理解模型构建语义理解模型,以使该语义理解模型能够对该至少两个语种下的语句进行语义理解。

    语音识别方法以及电子设备、存储装置

    公开(公告)号:CN112700768B

    公开(公告)日:2024-04-26

    申请号:CN202011487548.5

    申请日:2020-12-16

    Abstract: 本申请公开了一种语音识别方法以及电子设备、存储装置,其中,语音识别方法包括:识别用户的语音指令,得到一个第一候选文本和至少一个第二候选文本;其中,第二候选文本的识别置信度与第一候选文本的识别置信度符合预设关系;响应于第一候选文本的第一语义理解结果不满足预设结果条件,更新第二候选文本的识别置信度;基于识别置信度,获取第二候选文本的第二语义理解结果,并利用第二语义理解结果,得到语音指令的识别结果。上述方案,能够提高语音识别的准确性和鲁棒性。

Patent Agency Ranking