-
公开(公告)号:CN119721071A
公开(公告)日:2025-03-28
申请号:CN202510224089.8
申请日:2025-02-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音翻译方法、系统和相关装置,该方法包括:基于目标对象的待翻译音频,确定所述待翻译音频对应的音频特征、文本转换特征和所述目标对象匹配的声学特征;获取与翻译任务匹配的链路信息,基于所述链路信息、所述音频特征、所述文本转换特征和所述声学特征,编码得到与所述待翻译音频匹配的目标转换特征;对所述目标转换特征进行解码,得到所述待翻译音频对应的翻译音频。通过上述方式,本申请能够提高语音翻译的准确性。
-
公开(公告)号:CN119479620A
公开(公告)日:2025-02-18
申请号:CN202510026410.1
申请日:2025-01-08
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种流式语音交互方法及相关装置、设备和存储介质,其中,流式语音交互方法包括:对流式语音进行端点检测,并响应于检测到流式语音的起始端点,对流式语音执行滑窗操作,得到语音帧,基于语音帧进行特征提取,得到语音帧的语音特征;输入语音帧的语音特征至用于识别流式语音的语音识别系统,得到语音帧的识别结果,基于语音帧的编码特征进行分类预测,得到语音帧的分类结果;响应于分类结果表征语义结束,基于从起始端点至结束端点各个语音帧的识别结果,得到识别文本,至少基于识别文本由智能对话模型进行处理,生成得到回复文本;响应于分类结果表征语义未结束,继续返回执行滑窗操作。上述方案,能够提升流式语音交互的适时性。
-
公开(公告)号:CN119446119A
公开(公告)日:2025-02-14
申请号:CN202411486621.5
申请日:2024-10-23
Applicant: 科大讯飞股份有限公司
IPC: G10L15/00 , G10L15/02 , G10L15/18 , G10L25/51 , G06F40/263 , G06F18/2415 , G06F40/30 , G06N3/0455
Abstract: 本申请提出一种方言识别方法、装置、设备及计算机程序产品,该方法包括:对待识别方言语音进行编解码处理,得到语音解码特征;通过预先训练的语言模型对所述语音解码特征进行解码,得到方言识别结果;其中,所述语言模型的解码网络中的方言文本以及与该方言文本相同语义的普通话文本对应相同的语言模型概率。上述的方言识别方法能够提高方言识别效果。
-
公开(公告)号:CN112733546A
公开(公告)日:2021-04-30
申请号:CN202011580344.6
申请日:2020-12-28
Applicant: 科大讯飞股份有限公司
IPC: G06F40/30 , G06K9/62 , G10L25/63 , G06F40/166
Abstract: 本发明实施例提供一种表情符号生成方法、装置、电子设备及存储介质,所述方法包括:确定语音片段及其对应的文本;将语音片段和文本输入至情感识别模型,得到情感识别模型输出的文本的情感识别结果;基于情感识别结果,在文本中插入表情符号;其中,情感识别模型用于提取语音片段的语音特征以及文本的文本特征,并基于语音特征和文本特征进行情感识别;情感识别模型是基于样本语音片段及其对应的样本文本,以及样本情感识别结果训练得到的。本发明实施例提供的表情符号生成方法、装置、电子设备及存储介质,提高了情感识别的准确性,实现了表情符号的自动实时生成。
-
公开(公告)号:CN119559962A
公开(公告)日:2025-03-04
申请号:CN202411486466.7
申请日:2024-10-23
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种同传翻译方法、电子设备和计算机可读存储介质,该方法包括:获取待译音频;利用目标分割模型确定待译音频对应的待译文本的文本分割位置;其中,文本分割位置包括第一文本分割位置和第二文本分割位置,第一文本分割位置为待译文本中的第一子待译文本和第二子待译文本之间的位置,第二子待译文本对第一子待译文本的翻译影响度低于第一影响度阈值,第二文本分割位置为待译文本中的目标标点所在位置;按照文本分割位置,对待译音频进行分段翻译。通过上述方式,本申请能够提高同传翻译的时效性,降低同传翻译的时延。
-
公开(公告)号:CN119811419A
公开(公告)日:2025-04-11
申请号:CN202510304418.X
申请日:2025-03-14
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种同传翻译方法、电子设备和计算机可读存储介质,该方法包括:获取待译音频;利用目标分割模型确定待译音频对应的待译文本的文本分割位置;其中,文本分割位置包括第一文本分割位置和第二文本分割位置,第一文本分割位置为待译文本中的第一子待译文本和第二子待译文本之间的位置,第二子待译文本对第一子待译文本的翻译影响度低于第一影响度阈值,第二文本分割位置为待译文本中的目标标点所在位置;按照文本分割位置,对待译音频进行分段翻译。通过上述方式,本申请能够提高同传翻译的时效性,降低同传翻译的时延。
-
公开(公告)号:CN113128212B
公开(公告)日:2024-05-31
申请号:CN202110443439.1
申请日:2021-04-23
Applicant: 科大讯飞股份有限公司
IPC: G06F40/279 , G06F40/205 , G10L15/26
Abstract: 本申请公开了一种语音笔录筛选方法、装置、存储介质及设备,该方法包括:首先获取待筛选的目标语音识别文本及其所归属的目标用户的个人信息,然后,提取目标语音识别文本的文本特征,并确定目标用户的个人风格特征,接着,将目标语音识别文本的文本特征和目标用户的个人风格特征输入至预先构建的语音笔录筛选模型,以筛选出目标语音识别文本的语音笔录。可见,本申请是利用预先构建的语音笔录筛选模型,基于目标用户的个人风格,便可以快速、准确地筛选出目标语音识别文本对应的语音笔录,而不再需要通过人工对语音记录进行逐字逐句地整理和改写来获得语音笔录,从而降低了语音笔录的筛选成本,也提高了筛选效率。
-
公开(公告)号:CN115512695A
公开(公告)日:2022-12-23
申请号:CN202211134105.7
申请日:2022-09-15
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法、装置、设备及存储介质,本申请配置的语音识别模型通过第一语音分类层基于语音编码器输出的语音编码特征预测得到初始预测文本,文本编码器对初始预测文本进行编码,将文本编码特征和语音编码特征融合,将融合编码特征输入到共享编码器中进行二次编码,并由第二语音分类层基于二次编码特征得到最终预测文本。由于语音识别模型整体上能够提取到更加丰富的融合编码特征,因此能够进一步提升识别准确度。此外,由于语音识别模型包含有文本编码器和共享编码器,因而在训练过程可以额外使用纯文本数据对文本编码器和共享编码器进行训练,纯文本数据相比于语音的标注文本其更容易大量的获取,极大降低了人工标注成本。
-
公开(公告)号:CN113128212A
公开(公告)日:2021-07-16
申请号:CN202110443439.1
申请日:2021-04-23
Applicant: 科大讯飞股份有限公司
IPC: G06F40/279 , G06F40/205 , G10L15/26
Abstract: 本申请公开了一种语音笔录筛选方法、装置、存储介质及设备,该方法包括:首先获取待筛选的目标语音识别文本及其所归属的目标用户的个人信息,然后,提取目标语音识别文本的文本特征,并确定目标用户的个人风格特征,接着,将目标语音识别文本的文本特征和目标用户的个人风格特征输入至预先构建的语音笔录筛选模型,以筛选出目标语音识别文本的语音笔录。可见,本申请是利用预先构建的语音笔录筛选模型,基于目标用户的个人风格,便可以快速、准确地筛选出目标语音识别文本对应的语音笔录,而不再需要通过人工对语音记录进行逐字逐句地整理和改写来获得语音笔录,从而降低了语音笔录的筛选成本,也提高了筛选效率。
-
-
-
-
-
-
-
-