-
公开(公告)号:CN114257571A
公开(公告)日:2022-03-29
申请号:CN202210128145.4
申请日:2017-08-25
申请人: 谷歌有限责任公司
发明人: 柯皑瑞 , 乔纳斯·埃里克·林德伯格 , 瑟奇·拉切贝尔 , 亨里克·伦丁
IPC分类号: H04L65/1069 , G10L15/20 , G10L19/005 , G10L21/0208 , G10L21/0232 , G10L21/043 , G10L21/045 , G10L25/78 , G10L25/90 , H04L65/80 , H04L67/141
摘要: 一种计算机实现的技术可以包括在第一和第二计算设备之间建立音频通信会话,以及由第一计算设备使用由麦克风捕捉的音频数据来获得音频输入信号。第一计算设备可以分析音频输入信号以检测其第一用户的语音输入,以及可以确定从音频输入信号被获得直到分析已经完成的检测周期的持续时间。然后,第一计算设备可以向第二计算设备传送(i)在语音输入开始时开始的音频输入信号的部分和(ii)检测周期持续时间,其中音频输入信号的部分和检测周期持续时间的接收使得第二计算设备加速音频输入信号的部分的重放,以补偿检测周期持续时间。
-
公开(公告)号:CN110138654B
公开(公告)日:2022-02-11
申请号:CN201910490608.X
申请日:2019-06-06
申请人: 北京百度网讯科技有限公司
IPC分类号: H04L51/18 , H04L51/04 , H04L51/10 , G10L15/26 , G10L13/04 , G10L13/033 , G10L21/043
摘要: 本申请实施例公开了用于处理语音的方法和装置。该方法的一具体实施方式包括:获取原始语音;对原始语音进行语音识别,得到原始语音对应的原始文本;将原始语音中的语音片段与原始文本中的文本片段关联;识别原始语音和/或原始文本的异常片段;对原始文本中的异常片段指示的文本片段和/或原始语音中的异常片段指示的语音片段进行处理,生成最终语音。该实施方式将原始语音中的语音片段与原始文本中的文本片段关联,实现了语音的可视化处理。同时,避免了由于语音录制过程中出现异常状况而需要重新录制的问题,从而提高了语音录制效率。
-
公开(公告)号:CN112750456A
公开(公告)日:2021-05-04
申请号:CN202010956303.6
申请日:2020-09-11
申请人: 腾讯科技(深圳)有限公司
发明人: 梁俊斌
IPC分类号: G10L21/043 , G10L21/057 , G10L25/63 , G10L21/02 , G10L25/18
摘要: 本申请提供一种即时通信应用中的语音数据处理方法、装置及电子设备,属于语音处理技术领域。本申请实施例中,语音接收侧上的即时通讯应用显示接收到的语音消息;响应播放语音消息的操作,根据播放环境的第一噪声强度对语音消息的播放语速进行调节后播放,其中播放语速和第一噪声强度负相关;语音发送侧上的即时通讯应用响应目标对象触发的录音操作,获得麦克风采集的语音数据;根据录音环境的第二噪声强度对语音数据进行处理后发送,其中播放语速和第二噪声强度负相关。由于本申请实施例根据检测噪声大小调节语速,噪声越大,调节后的语音数据的播放语速越慢,不再需要用户手动调节播放音量,提高语音消息的播放控制方式的灵活性。
-
公开(公告)号:CN112530447A
公开(公告)日:2021-03-19
申请号:CN201910818829.5
申请日:2019-08-30
申请人: 青岛海信移动通信技术股份有限公司
发明人: 李斌
IPC分类号: G10L21/007 , G10L21/013 , G10L21/043 , G10L19/16 , H04M1/72433
摘要: 本发明涉及信息通讯技术领域,特别涉及一种语音数据处理方法及通信终端,以至少解决现有技术中通过专门的音频处理芯片进行变音方式会增加手机的功耗的问题,本公开方法包括:接收用户在通话过程中输入的变音指令,根据所述变音指令对通话过程中采集到的语音数据进行变音处理,将变音处理后的语音数据流编码后发送给接收端。因为本发明实施例提供的语音数据处理方法,不需要在手机中增加额外的音频处理芯片,通过运行额外音频处理芯片进行语音数据的变音处理,降低了生产成本,很好的解决了通过专门的音频处理芯片进行变音方式会增加手机的功耗的问题。
-
公开(公告)号:CN112489667A
公开(公告)日:2021-03-12
申请号:CN201910777904.8
申请日:2019-08-22
申请人: 北京声智科技有限公司
IPC分类号: G10L21/007 , G10L21/043 , G10L15/06 , G10L15/22 , G10L21/0208
摘要: 本发明提供一种音频信号的处理方法和装置,获取预先录制的源音频信号和预设的目标声源位置;根据目标声源位置对源音频信号进行转换,得到麦克风对应的音频信号;其中,麦克风是麦克风阵列中的每一个麦克风;组合每一个麦克风对应的音频信号,得到麦克风阵列的目标音频信号。其中,根据目标声源位置处理得到的目标音频信号相当于麦克风阵列录制得到的,从目标声源位置发出的音频信号。因此本方案能够利用预先录制好的音频信号模拟出麦克风阵列从任意一个声源位置录制得到的音频信号,而不必频繁改变声源位置并针对每个声源位置重复录制音频信号,减少了获取训练智能音箱所需的音频样本的时间,从而减少训练智能音箱的唤醒模型所需的时间。
-
公开(公告)号:CN112151064A
公开(公告)日:2020-12-29
申请号:CN202011025094.X
申请日:2020-09-25
申请人: 北京捷通华声科技股份有限公司
IPC分类号: G10L21/034 , G10L21/043 , G10L21/01 , G10L25/63 , G10L25/90
摘要: 本申请提供了一种话术播报方法、装置、计算机可读存储介质和处理器,该话术播报方法包括:获取说话人的语音数据;根据语音数据确定说话人的声音特征,声音特征包括语速、音量以及语调;根据说话人的声音特征,确定话术的声音特征;根据语音数据的语义以及确定的话术的声音特征,播报话术。该话术播报方法可以针对不同的说话人的声音特征动态调整话术的声音特征,实现了同一场景下针对不同的用户播报不同的话术内容,达到了个性化的服务,同时使得话术播报更加拟人化,提升了用户在话术播报过程中的交互体验,进而提升用户使用满意度。
-
公开(公告)号:CN107170464B
公开(公告)日:2020-11-27
申请号:CN201710377182.8
申请日:2017-05-25
申请人: 厦门美图之家科技有限公司
IPC分类号: G10L21/043 , G10L21/055 , G10L13/033 , G10L13/08 , G10L25/78 , G10H1/00
摘要: 本发明公开了一种基于音乐节奏的语音变速方法,该方法适于根据目标语音数据的节奏对待处理语音数据进行变速处理,包括步骤:通过静音检测提取待处理语音数据中的有声段;对所提取的有声段语音数据进行切字处理;读取目标语音数据的MIDI文件,获取其中每段MIDI的文件信息;结合MIDI文件信息算出每段MIDI上对应的语音数据;根据预定的对齐规则将对应的语音数据对齐到该段MIDI上;采用基于相位声码器的语音变速算法对对齐后的语音数据进行变速;以及将变速后的语音数据与目标语音数据的背景音乐进行混音,输出合成的语音。本发明还一并公开了相应的计算设备。
-
公开(公告)号:CN107731243B
公开(公告)日:2020-08-07
申请号:CN201610664811.0
申请日:2016-08-12
申请人: 电信科学技术研究院
IPC分类号: G10L21/043 , G10L21/057 , H04L29/06
摘要: 本发明公开了一种语音实时变速播放方法及设备,用以为在实时语音通信过程中实现语音变速播放提供解决方案。方法为:设备接收语音数据以及接收语音播放速率的控制指令;所述设备将所述语音数据保存至缓冲区,确定所述缓冲区的数据存储状态;所述设备从所述缓冲区读取待播放的语音数据,对所述待播放的语音数据进行语音活动检测获得检测结果;所述设备根据所述控制指令、所述缓冲区的数据存储状态以及所述检测结果中,调整所述待播放的语音数据的时长。
-
公开(公告)号:CN106373590B
公开(公告)日:2020-04-03
申请号:CN201610736919.6
申请日:2016-08-29
申请人: 湖南理工学院
IPC分类号: G10L21/043
摘要: 本发明公开了一种基于PSOLA改进的检测基本周期波形(基音)的算法,涉及一种基于语音实时时长调整的声音变速控制系统和方法。该发明通过将输入信号(例如音频解码器音频源的输出)存储在缓冲存储器中;从缓冲存储器中成对抽取具有相同长度的相邻语音信号,并搜索出相邻两个语音信号之间失真最小的波形;将搜索到的两个的语音信号重叠相加;通过用重叠相加的语音信号替代原输入信号中被搜索出来的相邻的两个语音实现语音速度变快的控制;或者通过将重叠相加的语音信号插入原输入中被搜索出来的相邻两个语音之间实现语音速度变慢的控制。本发明在语音实时时长调整中使用搜索算法进行基音检测来改进性能,精确的基本周期波形能够保持时长调整处理后语音(音调、音色、音质)的质量。
-
公开(公告)号:CN110505496A
公开(公告)日:2019-11-26
申请号:CN201810468602.8
申请日:2018-05-16
申请人: 腾讯科技(深圳)有限公司
IPC分类号: H04N21/233 , H04N21/472 , H04N21/431 , H04N21/482 , H04N21/258 , G10L21/007 , G10L21/013 , G10L21/043
摘要: 本发明公开了一种直播控制方法与装置、存储介质及电子装置。其中,该方法包括:通过直播应用的客户端采集所要分享的音频数据;在采集音频数据的过程中,获取对直播应用的客户端中所显示的操作界面执行操作而生成的变声指令,其中,变声指令中携带有目标变声类型;将目标变声类型及音频数据发送给直播应用的服务器,以使直播应用的服务器根据目标变声类型,对音频数据进行变声处理,得到用于分享至播放客户端进行播放的目标音频数据。本发明解决了相关直播过程中存在的直播控制操作复杂度较高的技术问题。
-
-
-
-
-
-
-
-
-