语音标注质量评价方法、装置、设备及存储介质

    公开(公告)号:CN112700763B

    公开(公告)日:2024-04-16

    申请号:CN202011570121.1

    申请日:2020-12-26

    Abstract: 本申请提出一种语音标注质量评价方法、装置、设备及存储介质,该方法包括:获取与目标语音对应的待标注的语音识别结果,所述待标注的语音识别结果通过对所述目标语音的语音识别结果进行文本片段替换得到,其中,替换后的文本片段是相对于所述目标语音的错误文本片段;获取标注对象对所述待标注的语音识别结果进行文本标注处理得到的标注结果,所述文本标注处理为标注识别错误的文本的处理;根据所述待标注的语音识别结果以及所述标注结果,确定所述标注对象对所述目标语音进行语音标注的标注质量。上述过程实现了对标注对象的语音标注质量的自动评价,实现了对标注对象的语音标注工作的监督,利于提升标注对象语音标注质量。

    语音识别方法、装置、电子设备和存储介质

    公开(公告)号:CN117711378A

    公开(公告)日:2024-03-15

    申请号:CN202311629338.9

    申请日:2023-11-28

    Abstract: 本发明提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括:获取待识别语音;基于语音识别模型,对所述待识别语音进行语音识别;所述语音识别模型是联合基于语音的音素识别任务和/或基于音素的文本生成任务,以及语音识别任务训练得到的。本发明提供的方法、装置、电子设备和存储介质,联合基于语音的音素识别任务和/或基于音素的文本生成任务,以及语音识别任务训练语音识别模型,以增强语音识别模型对于语音信息的提取能力,使得基于由此训练得到的语音识别模型,能够获取到在语义层面上表现更优的语音识别文本,从而提高语音识别的可靠性和准确性。

    一种笔记总结生成方法、装置、设备及存储介质

    公开(公告)号:CN116630981A

    公开(公告)日:2023-08-22

    申请号:CN202211675358.5

    申请日:2022-12-26

    Abstract: 本发明提供了一种笔记总结生成方法、装置、设备及存储介质,方法包括:获取目标文本图片;从目标文本图片中分割出若干目标区域,并确定每个目标区域的类别,其中,若干目标区域包括若干文本区域,每个文本区域为原文本区域、用户书写区域、用户标记区域中的一种;对分割出的每个文本区域进行文本识别,得到若干文本区域分别对应的识别结果;以用户书写区域对应的识别结果和/或用户标记区域对应的识别结果为指导信息,结合原文本区域对应的识别结果,生成目标用户的笔记总结。本发明可根据文本图片自动生成用户的笔记总结,相比于人工的笔记整理方式,大大降低了耗时,提高了笔记整理的效率,同时避免人为因素带来的影响。

    语音识别方法及相关装置、电子设备、存储介质

    公开(公告)号:CN115798480A

    公开(公告)日:2023-03-14

    申请号:CN202211493762.0

    申请日:2022-11-25

    Abstract: 本申请公开了一种语音识别方法及相关装置、电子设备、存储介质,其中,语音识别方法包括:提取待识别语音各个音频帧的声学特征;再基于声学特征进行预测,得到状态序列,并基于有限状态转换器对状态序列进行解码,得到第一候选识别文本及其第一识别分值;其中,状态序列包含音频帧对应的发音状态;并基于声学特征进行束搜索解码,得到第二候选识别文本及其第二识别分值;基于第一候选识别文本及其第一识别分值和第二候选识别文本及其第二识别分值,确定待识别语音的目标识别文本。上述方案,能够提高语音识别的准确性。

    一种朋友圈生成方法及装置

    公开(公告)号:CN109062900B

    公开(公告)日:2023-01-17

    申请号:CN201810864720.0

    申请日:2018-08-01

    Abstract: 本申请公开了一种朋友圈生成方法及装置,该方法包括:在获取到目标用户使用目标输入法输出的目标聊天记录后,若确定出目标聊天记录对应至少一个潜在好友,则判断该潜在好友是否为目标用户的真实聊天对象,若是,则可以将该潜在好友加入目标用户的输入法朋友圈,其中,潜在好友指的是目标用户使用目标聊天记录进行聊天的可能聊天对象。可见,本申请在获取到目标用户使用目标输入法输出的目标的聊天记录后,可以根据该聊天记录确定出目标用户的真实聊天对象并将其加入目标用户的输入法朋友圈,从而实现了基于目标用户使用目标输入法输出的聊天内容,生成目标用户的输入法朋友圈,以便后续可以基于输入法朋友圈提升输入法产品的娱乐性。

    一种双语种混合语音识别方法、装置、设备及存储介质

    公开(公告)号:CN110634487B

    公开(公告)日:2022-05-17

    申请号:CN201911017292.9

    申请日:2019-10-24

    Abstract: 本申请提供了一种双语种混合语音识别方法、装置、设备及存储介质,方法包括:获取目标语音,其中,目标语音为第一语种与第二语种的混合语音;利用预先建立的双语种混合语音识别模型对目标语音进行识别,获得多个候选识别文本以及多个候选识别文本分别对应的得分,其中,双语种混合语音识别模型能够确定出每个候选识别文本中每个文本单元的文本分类概率和语种分类概率,任一候选识别文本对应的得分根据该候选识别文本中每个文本单元的文本分类概率和语种分类概率确定;根据多个候选识别文本分别对应的得分,从多个候选识别文本中确定出目标语音的目标识别文本。本申请对双语种混合语音具有较好的识别效果,用户体验较好。

    语音识别方法、装置及计算机可读存储介质

    公开(公告)号:CN114283786A

    公开(公告)日:2022-04-05

    申请号:CN202111669746.8

    申请日:2021-12-31

    Abstract: 本申请公开了一种语音识别方法、装置及计算机可读存储介质。其中,该方法包括:获取待识别语音信息;利用编码网络中的至少两个子编码网络分别对所述语音信息进行特征提取,获得至少两个语音特征;其中,每个所述子编码网络根据相应语种的样本数据训练得到;利用融合网络将所述至少两个语音特征进行融合,得到融合语音特征;利用解码网络对所述融合语音特征进行解码,得到语音识别结果。通过上述方式,本申请能够提高语音识别的准确度。

    端到端建模方法及系统
    20.
    发明授权

    公开(公告)号:CN108122035B

    公开(公告)日:2019-10-18

    申请号:CN201611070244.2

    申请日:2016-11-29

    Abstract: 本发明公开了一种端到端建模方法及系统,该方法包括:确定基于目标的端到端模型的拓扑结构,所述拓扑结构包括:输入层、编码层、强化编码层、过滤层、解码层、输出层;所述强化编码层用于对所述编码层输出的特征序列加入目标单元信息,所述过滤层用于对所述强化编码层加入所述目标单元信息后的特征序列进行信息过滤;收集大量训练数据;确定所述训练数据的标注对象,并对所述标注对象中的目标单元进行标注;提取所述训练数据的特征序列;利用所述训练数据的特征序列及其目标单元的标注信息对基于目标的端到端模型的参数进行训练,得到基于目标的端到端模型参数。利用本发明,可以提高建模的准确度。

Patent Agency Ranking