-
公开(公告)号:CN111627412A
公开(公告)日:2020-09-04
申请号:CN202010373241.6
申请日:2020-05-06
申请人: OPPO(重庆)智能科技有限公司
IPC分类号: G10H1/40 , G10L21/043
摘要: 本申请涉及一种音频变速方法和装置、电子设备、计算机可读存储介质。方法包括获取原始音频;对原始音频进行节拍检测,得到原始音频的原始节拍频率;获取节拍频率范围,以及获取目标节拍频率;节拍频率范围内的节拍频率对应的音频在播放时保真;基于节拍频率范围和原始节拍频率,确定原始音频的倍速范围;基于原始节拍频率和目标节拍频率,在倍速范围内确定原始音频的目标倍速。上述头部姿态的检测方法和装置、电子设备、计算机可读存储介质,可以保证该原始音频以目标倍速进行播放时声音不失真。
-
公开(公告)号:CN110138654A
公开(公告)日:2019-08-16
申请号:CN201910490608.X
申请日:2019-06-06
申请人: 北京百度网讯科技有限公司
IPC分类号: H04L12/58 , G10L15/26 , G10L13/04 , G10L13/033 , G10L21/043
摘要: 本申请实施例公开了用于处理语音的方法和装置。该方法的一具体实施方式包括:获取原始语音;对原始语音进行语音识别,得到原始语音对应的原始文本;将原始语音中的语音片段与原始文本中的文本片段关联;识别原始语音和/或原始文本的异常片段;对原始文本中的异常片段指示的文本片段和/或原始语音中的异常片段指示的语音片段进行处理,生成最终语音。该实施方式将原始语音中的语音片段与原始文本中的文本片段关联,实现了语音的可视化处理。同时,避免了由于语音录制过程中出现异常状况而需要重新录制的问题,从而提高了语音录制效率。
-
公开(公告)号:CN107731243A
公开(公告)日:2018-02-23
申请号:CN201610664811.0
申请日:2016-08-12
申请人: 电信科学技术研究院
IPC分类号: G10L21/043 , G10L21/057 , H04L29/06
摘要: 本发明公开了一种语音实时变速播放方法及设备,用以为在实时语音通信过程中实现语音变速播放提供解决方案。方法为:设备接收语音数据以及接收语音播放速率的控制指令;所述设备将所述语音数据保存至缓冲区,确定所述缓冲区的数据存储状态;所述设备从所述缓冲区读取待播放的语音数据,对所述待播放的语音数据进行语音活动检测获得检测结果;所述设备根据所述控制指令、所述缓冲区的数据存储状态以及所述检测结果中,调整所述待播放的语音数据的时长。
-
公开(公告)号:CN104022967A
公开(公告)日:2014-09-03
申请号:CN201410058259.1
申请日:2014-02-20
申请人: 三菱电机株式会社
IPC分类号: H04L12/885 , G10L15/30 , G10L21/043
摘要: 一种音频解码装置,即使在应用无声压缩时也能够降低通话质量的劣化。其具有:抖动吸收缓冲器,其临时蓄积接收到的分组,并在规定的输出定时输出该分组;背景噪声生成部,其根据从上述抖动吸收缓冲器输出的分组所包含的背景噪声数据生成背景噪声的音频数据;音频解码部,其对从上述抖动吸收缓冲器输出的分组所包含的音频编码数据进行解码而生成语音的音频数据;语速变换部,其进行对由上述音频解码部解码后的上述音频数据的再现速度进行变换的语速变换;和控制部,其根据上述抖动吸收缓冲器中的分组的蓄积状况,控制由上述背景噪声生成部生成的上述背景噪声的时间长度,并且控制由上述语速变换部所变换的上述再现速度。
-
公开(公告)号:CN112489667B
公开(公告)日:2024-09-06
申请号:CN201910777904.8
申请日:2019-08-22
申请人: 北京声智科技有限公司
IPC分类号: G10L21/007 , G10L21/043 , G10L15/06 , G10L15/22 , G10L21/0208
摘要: 本发明提供一种音频信号的处理方法和装置,获取预先录制的源音频信号和预设的目标声源位置;根据目标声源位置对源音频信号进行转换,得到麦克风对应的音频信号;其中,麦克风是麦克风阵列中的每一个麦克风;组合每一个麦克风对应的音频信号,得到麦克风阵列的目标音频信号。其中,根据目标声源位置处理得到的目标音频信号相当于麦克风阵列录制得到的,从目标声源位置发出的音频信号。因此本方案能够利用预先录制好的音频信号模拟出麦克风阵列从任意一个声源位置录制得到的音频信号,而不必频繁改变声源位置并针对每个声源位置重复录制音频信号,减少了获取训练智能音箱所需的音频样本的时间,从而减少训练智能音箱的唤醒模型所需的时间。
-
公开(公告)号:CN118284933A
公开(公告)日:2024-07-02
申请号:CN202280074221.6
申请日:2022-08-23
申请人: 松下电器(美国)知识产权公司
发明人: 板仓光佑
IPC分类号: G10L17/20 , G10L17/00 , G10L21/003 , G10L21/043
摘要: 说话者识别装置执行如下处理:获取登记语音,将获取到的登记语音变换为声学特性分别不同的多个特性变换语音,从登记语音提取表示说话者的特征的说话者特征量,分别从多个特性变换语音提取说话者特征量,对从登记语音提取到的说话者特征量、与从多个特性变换语音提取到的多个说话者特征量的一部分或者全部之中的、两个说话者特征量的全部的组合进行比较,基于比较结果,算出用于识别输入语音的说话者的阈值。
-
公开(公告)号:CN117252213B
公开(公告)日:2024-05-31
申请号:CN202310824069.5
申请日:2023-07-06
申请人: 天津大学
IPC分类号: G06F40/58 , G06F40/45 , G06F40/35 , G06N3/0455 , G06N3/0464 , G06N3/09 , G06N3/096 , G06N5/04 , G06F18/27 , G10L15/26 , G10L15/06 , G10L15/16 , G10L15/18 , G10L13/08 , G10L21/043
摘要: 本发明公开了一种使用合成语音作为监督信息的端到端语音翻译方法,首先对待翻译的三元组原始语音翻译数据进行预处理,得到包含合成语音的四元组语音翻译数据;然后构建语音翻译模型,利用四元组的语音翻译数据作为样本训练该语音翻译模型,其中,设计了对齐适配器模块,用于将合成语音的语义表示作为监督信息,使原始语音的语义表示向合成语音的语义表示靠近;同时,在共享解码器端,将合成语音的logits分布蒸馏到原始语音的logits分布上。最后利用训练好的语音翻译模型,对待翻译的输入语音即可进行翻译,输出目标翻译文本。本发明使用标准的合成语音作为监督信息,融入到语音翻译模型训练框架中,在训练过程中,监督指导端到端的原始语音翻译的训练,从而提升翻译效果。
-
公开(公告)号:CN111724774B
公开(公告)日:2024-05-17
申请号:CN201910223485.3
申请日:2019-03-22
申请人: 斑马智行网络(香港)有限公司
发明人: 罗婷
IPC分类号: G10L15/22 , G10L13/033 , G10L21/043
摘要: 本公开提出了一种语音交互方法、装置、设备及存储介质。接收用户的第一语音信息;根据第一语音信息的第一特征,调整输出的第二语音信息的第二特征。例如,可以根据第一语音信息的语义密度,调整与输出的第二语音信息相关的参数,其中,语义密度用于表征第一语音信息在单位时间内传达的语义信息量。由此,可以为良好的语音交互体验提供技术支持。
-
公开(公告)号:CN112562721B
公开(公告)日:2024-04-16
申请号:CN202011375314.1
申请日:2020-11-30
申请人: 清华珠三角研究院 , 赛业(广州)生物科技有限公司
IPC分类号: G10L21/10 , G10L25/57 , G10L15/26 , G10L13/04 , G10L13/047 , G10L17/00 , G10L21/043 , G06F40/58 , G06V40/16 , G06V20/40
摘要: 本发明公开了一种视频翻译方法、系统、装置及存储介质,其中方法包括以下步骤:获取视频数据;对所述视频数据进行语音分割,获得语音片段以及与所述语音片段对应的视频片段;对所述语音片段进行语音识别,获得第一文本,对所述第一文本进行翻译,获得第二文本;根据所述第二文本获取合成语音,通过调整所述合成语音和与之对应的所述视频片段,使所述合成语音与所述视频片段匹配;检测并调整所述视频片段中的唇形,以使所述唇形与所述合成语音同步匹配。本发明实现了对视频自动翻译的功能,能够生成目标语言声音的音频,并生成声音与唇形匹配的视频,解决了不同语种间的交流障碍,无需人工配音,降低了翻译成本,可广泛应用于视频处理领域。
-
公开(公告)号:CN109671433B
公开(公告)日:2023-06-16
申请号:CN201910023586.6
申请日:2019-01-10
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G10L15/22 , G10L15/28 , G10L15/02 , G10L21/043 , G10L21/0208 , G10L21/0216 , G10L25/24 , G10L25/12
摘要: 本发明公开了一种关键词的检测方法,包括:获取待检测语音信号的增强语音信号,其中,所述增强语音信号对应于目标语速;对所述增强语音信号进行变速处理,得到第一变速语音信号,其中,所述第一变速语音信号对应于第一语速;根据所述第一变速语音信号获取第一语音特征信号;通过关键词检测模型获取所述第一语音特征信号所对应的关键词检测结果,其中,所述关键词检测结果用于表示所述待检测语音信号中是否存在目标关键词;若根据关键词检测结果确定存在目标关键词,则执行目标关键词所对应的操作。本发明还公开了一种关键词检测装置。本发明可以对增强后的信号再进行变速处理,能够提升对快语速语音或者慢语速语音中关键词的检出率。
-
-
-
-
-
-
-
-
-