-
公开(公告)号:CN110097890A
公开(公告)日:2019-08-06
申请号:CN201910305630.2
申请日:2019-04-16
申请人: 北京搜狗科技发展有限公司
IPC分类号: G10L21/003 , G10L21/007 , G10L21/043 , G10L15/26 , G10L13/04
摘要: 本发明实施例提供了一种语音处理方法、装置和用于语音处理的装置。其中的方法具体包括:获取源语音数据流,所述源语音数据流由实时采集的语音数据形成;对所述源语音数据流进行声学特征提取,以得到所述源语音数据流对应的源声学特征;根据所述源声学特征,依次将采集的源语音数据流实时转换为具有目标声学特征的目标语音数据流;其中,所述目标声学特征与所述源声学特征包含相同的语音内容和不同的音色特征。通过本发明实施例不仅可以实现实时变声,为用户生活增加趣味性,以满足用户多样化的需求,而且可以减少变声过程的操作流程,进一步提高变声的效率。
-
公开(公告)号:CN109671433A
公开(公告)日:2019-04-23
申请号:CN201910023586.6
申请日:2019-01-10
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G10L15/22 , G10L15/28 , G10L15/02 , G10L21/043 , G10L21/0208 , G10L21/0216 , G10L25/24 , G10L25/12
摘要: 本发明公开了一种关键词的检测方法,包括:获取待检测语音信号的增强语音信号,其中,所述增强语音信号对应于目标语速;对所述增强语音信号进行变速处理,得到第一变速语音信号,其中,所述第一变速语音信号对应于第一语速;根据所述第一变速语音信号获取第一语音特征信号;通过关键词检测模型获取所述第一语音特征信号所对应的关键词检测结果,其中,所述关键词检测结果用于表示所述待检测语音信号中是否存在目标关键词;若根据关键词检测结果确定存在目标关键词,则执行目标关键词所对应的操作。本发明还公开了一种关键词检测装置。本发明可以对增强后的信号再进行变速处理,能够提升对快语速语音或者慢语速语音中关键词的检出率。
-
公开(公告)号:CN105741852A
公开(公告)日:2016-07-06
申请号:CN201410757585.1
申请日:2014-12-11
申请人: 司法部司法鉴定科学技术研究所
IPC分类号: G10L21/043
摘要: 本发明公开了一种注意力自适应音频时域调整方法,其中,包括如下步骤:步骤a:实时视频中用户头部三维运动参数计算,包括初始化和运动参数计算;步骤b:初始化过程,检测正面人脸,选择具有最大面积的人脸作为初始化对象;步骤c:运动参数计算中,使用图像注册方法计算头部三维运动参数,包括俯仰角pitch、偏航角yaw和横滚角roll,标记为τ(pitch,yaw,roll);步骤d:参数τ通过函数F1(τ)转换成注意力表征参数α;步骤e:参数α通过函数F2(α)转换成音频信号时域控制参数β;步骤f:依据音频信号时域控制参数β调整音频信号播放速度。本发明的有益效果是:提供更合理更人性化的语音信息获取方法,具有良好的人机交互合理性和人性化设计特征。
-
公开(公告)号:CN118230713A
公开(公告)日:2024-06-21
申请号:CN202410266737.1
申请日:2024-03-08
申请人: 北京萌友智能科技有限公司
IPC分类号: G10L13/047 , G10L13/04 , G10L13/033 , G10L21/043 , G10L21/003
摘要: 本申请公开了一种智能体声音输出处理方法、装置及设备,通过获取智能体的目标行为策略信息、当前场景种类信息以及本体状态信息,分别确定声音播放指标以及至少一个目标原始音源,保证声音效果的确定性,并根据声音播放指标对目标原始音源进行拼接结构化处理,增强了声音表达的随机性和丰富性,解决了当前智能设备声音输出的技术实现中,采用预设应答会让声音的表达具有强烈的固定性,缺乏变化,采用合成方式输出声音内容,合成效果是否与预期相符具有较大的不确定性,容易影响用户体验的技术问题。
-
公开(公告)号:CN117975980A
公开(公告)日:2024-05-03
申请号:CN202410068768.6
申请日:2024-01-17
申请人: 电子科技大学 , 喀什地区电子信息产业技术研究院
IPC分类号: G10L21/007 , G10L21/0224 , G10L21/0264 , G10L21/043 , G10L25/30
摘要: 本发明属于机器学习中的神经网络技术领域,公开了一种基于去噪扩散概率模型的语音增强加速方法,依据浅层扩散策略,选择加入高斯噪声的时间步骤,进而向待增强语音加入高斯噪声,并利用第一噪声预测器对加入高斯噪声的待增强语音进行初步去噪,得到初步去噪语音;依据给定的时间步骤,向初步去噪语音加入高斯噪声,并利用第二噪声预测器对加入高斯噪声的初步去噪语音进行进一步去噪,得到增强后的语音。本发明提升了传统的基于去噪扩散概率模型的语音增强效率及质量。
-
公开(公告)号:CN111341344B
公开(公告)日:2024-02-13
申请号:CN202010117010.9
申请日:2020-02-25
申请人: 烽火通信科技股份有限公司
IPC分类号: G10L25/48 , G10L21/043 , G10L21/0208
摘要: 本发明公开了一种实现麦克风共享的方法及系统,涉及通信技术中的语音技术领域。该方法包括以下步骤:麦克风通过采样获取语音数据后,持续获取麦克风的语音数据并进行相应的优化处理,处理后不断生成包含固定个数采样点的数据块;当收到语音使用端的语音数据获取请求后,创建一个用于存储语音数据的管道,并不断将所述数据块存入该管道;同时将该管道的地址通过响应消息告知语音使用端;语音使用端根据获知的管道地址,从相应管道中取出语音数据并使用。本发明能有效解决麦克风冲突问题,实现无损麦克风自身性能的麦克风共享,不但节省硬件成本,而且能兼容各种场景,满足了实际应用需求。
-
公开(公告)号:CN116778950B
公开(公告)日:2023-11-17
申请号:CN202311044496.8
申请日:2023-08-18
申请人: 玖益(深圳)医疗科技有限公司
IPC分类号: G10L21/043
摘要: 本申请实施例涉及信号处理技术领域,公开了一种用于音频数据传输的采样率匹配方法、系统及存储介质,该方法包括:以初始转换比对音频数据进行采样率转换处理,即重采样处理,获得处理后的音频数据;将处理后的音频数据传输至音频播放系统的缓冲单元缓存,以使音频播放系统从缓冲单元中获取并播放处理后的音频数据;获取缓冲单元中缓存的处理后的音频数据的数据量;根据数据量与预设阈值的大小关系调整初始转换比,获得调整后的转换比,并以调整后的转换比对音频数据进行采样率转换处理。通过上述方式,本申请实施例实现了提升音频数据的播放效果。
-
公开(公告)号:CN114566060B
公开(公告)日:2023-03-24
申请号:CN202210169416.0
申请日:2022-02-23
申请人: 成都智元汇信息技术股份有限公司
摘要: 本发明公开了一种公共交通消息通知处理方法,包括以下步骤:S1:确认消息播放设备终端,获取消息播放设备终端的屏幕尺寸信息;S2:获取消息下发指令,所述消息下发指令为语音实时下发指令;S3:根据所述语音实时下发指令,获取当前实时输入的语音;S4:将当前实时输入的语音转化成文本信息,并根据语音算法对当前实时输入的语音进行标准化处理;S5:根据文本展示设备终端的屏幕尺寸信息对转化后的文本信息中的字体及字号进行自适应处理;S6:下发消息播放指令、自适应处理后的文本信息以及标准化处理后的语音至消息播放设备终端。
-
公开(公告)号:CN114930865A
公开(公告)日:2022-08-19
申请号:CN202180008486.1
申请日:2021-01-06
申请人: 杜比实验室特许公司
IPC分类号: H04N21/439 , G10L21/043 , G10L25/93 , H04N21/485 , H04N21/2387 , G11B27/00 , H04N5/783
摘要: 一种用于设置包括音频的媒体内容的回放速度的计算机实施的方法,该媒体内容具有定义的正常回放速度,该方法包括:接收要以不同于媒体内容的正常回放速度的速度播放媒体内容的指示,分析音频以确定音频类型;以及根据所确定的音频类型来确定不同于正常回放速度的回放速度,并将媒体内容的回放速度设置为所确定的回放速度。
-
公开(公告)号:CN114566060A
公开(公告)日:2022-05-31
申请号:CN202210169416.0
申请日:2022-02-23
申请人: 成都智元汇信息技术股份有限公司
摘要: 本发明公开了一种公共交通消息通知处理方法,包括以下步骤:S1:确认消息播放设备终端,获取消息播放设备终端的屏幕尺寸信息;S2:获取消息下发指令,所述消息下发指令为语音实时下发指令;S3:根据所述语音实时下发指令,获取当前实时输入的语音;S4:将当前实时输入的语音转化成文本信息,并根据语音算法对当前实时输入的语音进行标准化处理;S5:根据文本展示设备终端的屏幕尺寸信息对转化后的文本信息中的字体及字号进行自适应处理;S6:下发消息播放指令、自适应处理后的文本信息以及标准化处理后的语音至消息播放设备终端。
-
-
-
-
-
-
-
-
-