-
公开(公告)号:CN108228574B
公开(公告)日:2020-07-28
申请号:CN201711288979.7
申请日:2017-12-07
Applicant: 科大讯飞股份有限公司
Abstract: 本发明实施例提供一种文本翻译处理方法及装置,属于语言处理技术领域。该方法包括:若第一识别文本的识别置信度大于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈值,则对第一目标语言文本进行翻译,得到第二识别文本;若第一识别文本与第二识别文本之间语义不等价,获取关键名词及关键名词的类型;基于关键名词的类型对关键名词进行翻译,得到第一翻译结果,对第一识别文本中除关键名词之外的其它内容进行翻译,得到第二翻译结果,将第一翻译结果与第二翻译结果进行合并得到第二目标语言文本。由于可将第一识别文本中的关键名词作为一个整体分词,按照关键名词类型对关键名词进行翻译,从而可使得翻译结果更加准确。
-
公开(公告)号:CN108170686B
公开(公告)日:2020-02-14
申请号:CN201711480227.0
申请日:2017-12-29
Applicant: 科大讯飞股份有限公司
IPC: G06F40/58
Abstract: 本发明实施例提供一种文本翻译方法及装置,属于语言处理技术领域。该方法包括:获取源文本对应的音素序列编码向量及词序列向量;其中,源文本对应的音素序列编码向量中包含的音素编码向量数与源文本对应的词序列向量中包含的词向量数相同;将源文本对应的音素序列编码向量与词序列向量输入至翻译模型,输出得到源文本对应的目标文本。由于在机器翻译的解码阶段之前,结合了词序列和音素序列进行编码,从而可利用音素序列对语音识别结果作容错处理,使得翻译后的目标文本能够更加准确地对应源语音信号。因此,翻译结果更加准确。
-
公开(公告)号:CN108304389A
公开(公告)日:2018-07-20
申请号:CN201711287987.X
申请日:2017-12-07
Applicant: 科大讯飞股份有限公司
Abstract: 本发明实施例提供一种交互式语音翻译方法及装置,属于语言处理技术领域。该方法包括:若第一识别文本的识别置信度大于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈值,则对第一目标语言文本进行翻译,得到第二识别文本;若第一识别文本与第二识别文本之间语义不等价,则提示用户第一识别文本对应的翻译难易程度;若检测到用户输入关键文本,则对关键文本进行语义解析,以得到关键名词及关键名词的类型,并基于关键名词的类型对关键名词进行翻译,得到第一翻译结果,对其它内容进行翻译,得到第二翻译结果,将第一翻译结果与第二翻译结果合并得到第二目标语言文本。由于提供了一种新的语音翻译交互模式,以使得翻译结果更加准确。
-
公开(公告)号:CN119785775A
公开(公告)日:2025-04-08
申请号:CN202411940443.9
申请日:2024-12-26
Applicant: 科大讯飞股份有限公司
IPC: G10L15/08 , G10L15/18 , G10L19/04 , G10L19/008 , G10L25/51
Abstract: 本发明提供一种语音解耦方法、装置、电子设备、存储介质和程序产品,涉及音频处理技术领域。方法包括:将待解耦语音数据分别输入至音色编码器和韵律编码器,得到音色编码器输出的解耦音色信息,以及韵律编码器输出的解耦韵律信息;其中,第一重构损失是基于第一发音者的样本音频数据和第一发音者的重构音频数据确定的,第一发音者的重构音频数据是基于第一发音者对应的目标音色信息和第一发音者对应的目标韵律信息重构的。本发明通过第一重构损失可以约束音色编码器的音色保持能力,从而提高音色解耦的充分性,以及可以约束韵律编码器的韵律保持能力,从而提高韵律解耦的充分性;且本发明还可以提高语音解耦泛化性。
-
公开(公告)号:CN119517000A
公开(公告)日:2025-02-25
申请号:CN202411781292.7
申请日:2024-12-05
Applicant: 科大讯飞股份有限公司
IPC: G10L13/02 , G10L13/033 , G10L13/08 , G10L25/24 , G10L25/93
Abstract: 本发明提供一种语音信号合成方法、装置、电子设备及存储介质,涉及语音合成技术领域,该方法在帧级别预测语音信号的幅度谱和相位谱,避免了计算量大的上采样结构以及转置卷积带来的周期噪声问题。而且,该方法从输入的语音信号梅尔谱中获取帧级别的基频,并确定浊音帧和非浊音帧,通过能量信息分配的方式生成参考幅度谱,可以为逐帧预测语音信号的幅度谱和相位谱提供额外的幅度谱信息,降低预测难度,进而提高语音信号的合成效率和质量。
-
公开(公告)号:CN112735417B
公开(公告)日:2024-04-26
申请号:CN202011591155.9
申请日:2020-12-29
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Abstract: 本发明提供一种语音翻译方法、电子设备、存储介质。其中,语音翻译方法,包括:在获取待翻译语音数据的过程中对待翻译语音数据进行流式语音识别;对当前流式语音识别进行即时判定,以判定识别的当前识别结果是否触发翻译操作,若是,对当前识别结果进行翻译。其能够降低翻译等待时间,提高翻译效率。
-
公开(公告)号:CN116110370A
公开(公告)日:2023-05-12
申请号:CN202310092201.8
申请日:2023-01-17
Applicant: 科大讯飞股份有限公司
IPC: G10L13/10 , G10L13/047 , G10L15/22 , G10L15/26 , G10L25/51 , G10L15/06 , G10L15/187
Abstract: 本申请属于语音合成技术领域,提供了一种基于人机语音交互的语音合成系统、终端及计算机可读存储介质,为了解决传统技术中基于人机语音交互的语音合成效果较差的问题,通过语音合成系统包含的语音识别模块来获取第一用户输入的语音,并对语音进行语音识别,得到识别文本及相对应的发音序列,并通过发音提取模块在识别文本包含预设类型目标文本的情况下,根据发音序列,获取预设类型目标文本所对应的发音,通过文本生成模块来获取第二用户所对应的目标识别文本,并根据目标识别文本,生成相对应的响应文本,再基于语音合成模块在响应文本包含预设类型目标文本的情况下,采用发音合成响应文本所对应的响应语音,能够提高人机语音交互的效果。
-
公开(公告)号:CN116030784A
公开(公告)日:2023-04-28
申请号:CN202211640789.8
申请日:2022-12-20
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供语音合成方法、设备及存储介质,包括:接收云端的待合成文本以及所述待合成文本对应的第一音频流、音素信息,其中所述待合成文本包括若干字符,所述音素信息包括音素;基于第一音频流进行音频播放,并在接收异常时,确定当前播放的音素以及中断点音素;将待合成文本进行语音合成得到第二音频流,并确定目标音素,其中,所述目标音素为静音音素,且位置在所述当前播放的音素与所述中断点音素之间;以所述目标音素为拼接点,将所述第一音频流与所述第二音频流进行拼接得到目标音频流,并基于所述目标音频流进行音频播放。本申请旨在提高语音合成的连续性以及实现韵律的一致性。
-
公开(公告)号:CN114267322A
公开(公告)日:2022-04-01
申请号:CN202111620262.4
申请日:2021-12-28
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例公开了一种语音处理方法、装置、计算机可读存储介质及计算机设备。该方法包括:根据来自终端的语音合成服务请求,确定目标性能数据以及目标发音对象的语音数据,该语音数据具有目标音色,根据目标性能数据对初始语音合成模型中的目标网络模块进行裁剪处理,以得到待训练语音合成模型,并利用语音数据对待训练语音合成模型进行训练,得到目标语音合成模型,以使得终端利用目标语音合成模型对目标文本进行语音合成处理,得到具有目标音色的合成语音数据。本申请实施例可得到与终端的性能数据匹配的目标语音合成模型,从而基于该目标语音合成模型提供符合终端的目标性能数据的语音合成服务,改善用户体验。
-
公开(公告)号:CN107886940B
公开(公告)日:2021-10-08
申请号:CN201711107222.3
申请日:2017-11-10
Applicant: 科大讯飞股份有限公司
Abstract: 本发明实施例提供一种语音翻译处理方法及装置,属于语言处理技术领域。该方法包括:若判断获知上一轮次的第一语音信号与当前轮次待翻译的第二语音信号均对应相同的语种类型,则基于第一语音信号对应的文本数据对第二语音信号对应的文本数据进行调整,得到第二语音信号对应调整后的文本数据;获取调整后的文本数据对应的合成语音信号,并播报合成语音信号。由于上一轮次的第一语音信号与当前轮次待翻译的第二语音信号在内容上可能是有关联的,从而基于第一语音信号对应的文本数据对第二语音信号对应的文本数据进行调整,可使得翻译结果会更加切合场景且更加精准。
-
-
-
-
-
-
-
-
-