-
公开(公告)号:CN117746893A
公开(公告)日:2024-03-22
申请号:CN202311642830.X
申请日:2023-11-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种口语评测方法、装置、设备及存储介质,本申请配置了文本语音对齐模型,该模型的输入为目标音频的音频表征及参考文本,模型被配置为提取参考文本的嵌入表征,并将嵌入表征与音频表征进行拼接,基于拼接表征解码得到对齐结果,对齐结果包括了目标音频的识别文本及识别文本与参考文本的对齐信息,由此可见,本申请文本语音对齐模型可端到端的直接预测得到对齐结果,避免了传统方案识别结果中产生的级联误差。在得到对齐结果后可以进一步基于对齐结果和参考文本来计算目标音频的完整度测评结果,提高了口语完整度测评结果的准确度。
-
公开(公告)号:CN114254647A
公开(公告)日:2022-03-29
申请号:CN202111481354.9
申请日:2021-12-06
Applicant: 科大讯飞股份有限公司
Inventor: 王超
IPC: G06F40/30 , G06F40/289 , G06F40/194 , G06F40/186 , G06F16/35
Abstract: 本发明提供一种意图识别方法、装置、电子设备和存储介质,所述方法包括:若检测到剪贴板中存在新增文本串,则将新增文本串输入至意图识别模型,得到意图识别模型输出的意图识别结果;基于意图识别结果,进行链接跳转;其中,意图识别模型是基于样本文本串及其对应的样本意图识别结果训练得到的;样本意图识别结果基于样本文本串与各意图类别下的模板文本串之间的内容相关度确定。本发明基于样本文本串与模板文本串之间的内容相关度能够快速且准确确定样本意图识别结果,避免传统方法中依赖人工对样本文本串进行标注容易得到错误样本意图识别结果的问题。
-
公开(公告)号:CN117789756A
公开(公告)日:2024-03-29
申请号:CN202311810523.8
申请日:2023-12-25
Applicant: 科大讯飞股份有限公司
IPC: G10L25/18 , G10L25/03 , G10L25/30 , G06N3/0442
Abstract: 本发明提供一种特征提取方法、装置、电子设备和存储介质,其中方法包括:获取多帧流式数据的初始特征;逐帧对所述多帧流式数据的初始特征进行前向特征提取,得到多帧前向特征;对所述多帧流式数据的初始特征进行切分,得到多个分段帧,并对所述多个分段帧进行反向特征提取,得到多帧反向特征;将所述多帧前向特征和所述多帧反向特征进行拼接,并基于拼接后特征,确定所述多帧流式数据的目标特征。本发明提供的方法、装置、电子设备和存储介质,可以更加准确、高效地进行特征提取,提高特征的表达能力和鲁棒性。
-
公开(公告)号:CN117995196A
公开(公告)日:2024-05-07
申请号:CN202410033784.1
申请日:2024-01-09
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种文本位置匹配方法、装置、电子设备和存储介质,其中方法包括:获取待匹配文本的音频,对音频中当前时段的音频段进行发音识别,得到当前时段的识别发音;将当前时段的识别发音与发音图网络中的各节点进行匹配,得到识别发音在待匹配文本中所处位置的匹配结果,发音图网络中的各节点基于待匹配文本中各文字的发音构建;基于发音图网络,对历史匹配结果进行回溯和修正,得到文本位置匹配结果,历史匹配结果包括当前时段的匹配结果和当前时段之前时段的匹配结果。本发明提供的方法、装置、电子设备和存储介质,可以支持文本位置在线实时匹配,并支持匹配结果动态修正,从而提高文本位置匹配的准确性和稳定性。
-
公开(公告)号:CN116403606A
公开(公告)日:2023-07-07
申请号:CN202310387110.7
申请日:2023-04-07
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种发音评测方法、装置、存储介质及设备,该方法包括:首先获取待评测的目标语音并提取其声学特征;然后对该声学特征和目标语音对应的标准文本进行切分对齐处理,得到目标语音对应的有效音频特征、以及音素序列和/或音素边界信息,接着对有效音频特征进行相邻音素的特征融合和编码处理,得到编码信息矩阵;进而可以根据预设N个评测维度的特点,对编码信息矩阵,以及音素序列和/或音素边界信息进行融合解码,并根据解码结果对目标语音进行发音评测,得到评测结果。可见,本申请是先对目标语音的全局特征进行编码,再利用得到的全局编码特征,同时进行N个不同维度的发音评测,从而能够提高评测结果的准确性和评测效果。
-
-
-
-