-
公开(公告)号:CN118609541A
公开(公告)日:2024-09-06
申请号:CN202410809624.1
申请日:2024-06-21
申请人: 北京安锐卓越信息技术股份有限公司
IPC分类号: G10L13/08 , G10L25/30 , G10L13/033 , G10L21/043 , G10L21/0316
摘要: 本发明公开了一种将白话文转换成语音的方法、装置及介质。其中,方法包括:收集语音数据,形成语音数据池,其中语音数据包括:不同性别、不同年龄以及不同口音的语音数据;根据语音数据池训练深度学习算法,生成普通话语音合成模型以及语音合成模型;将输入的待转换白话文字转换成拼音数据;将拼音数据输入至普通话语音合成模型中,生成与待转换白话文字对应的语音信号;对语音信号进行参数调整,确定修正语音信号;将修正语音信号输入至语音合成模型中,输出待转换白话文的标准语音数据。
-
公开(公告)号:CN112562719B
公开(公告)日:2024-03-19
申请号:CN202011373933.7
申请日:2020-11-30
申请人: 清华珠三角研究院 , 赛业(广州)生物科技有限公司
IPC分类号: G10L21/043 , G10L25/57 , H04N21/44 , H04N21/4402 , H04N21/439 , H04N5/262
摘要: 本发明公开了一种合成语音与原始视频匹配方法、系统、装置及存储介质,其中所述方法包括:获取原始视频的第一长度;获取合成语音的第二长度;根据所述第一长度与所述第二长度的长度差异,对所述原始视频和/或所述合成语音进行变速处理。本申请使得变速处理后的视频与语音的长度一致,提高用户的观感体验。本申请可广泛应用于视频处理领域。
-
公开(公告)号:CN109644192B
公开(公告)日:2022-03-08
申请号:CN201780052227.2
申请日:2017-08-25
申请人: 谷歌有限责任公司
发明人: 柯皑瑞 , 乔纳斯·埃里克·林德伯格 , 瑟奇·拉切贝尔 , 亨里克·伦丁
IPC分类号: G10L21/043 , G10L25/87
摘要: 一种计算机实现的技术可以包括在第一和第二计算设备之间建立音频通信会话,以及由第一计算设备使用由麦克风捕捉的音频数据来获得音频输入信号。第一计算设备可以分析音频输入信号以检测其第一用户的语音输入,以及可以确定从音频输入信号被获得直到分析已经完成的检测周期的持续时间。然后,第一计算设备可以向第二计算设备传送(i)在语音输入开始时开始的音频输入信号的部分和(ii)检测周期持续时间,其中音频输入信号的部分和检测周期持续时间的接收使得第二计算设备加速音频输入信号的部分的重放,以补偿检测周期持续时间。
-
公开(公告)号:CN113763968A
公开(公告)日:2021-12-07
申请号:CN202111049667.7
申请日:2021-09-08
申请人: 北京百度网讯科技有限公司
发明人: 赵情恩
IPC分类号: G10L17/26 , G10L17/04 , G10L17/02 , G10L17/18 , G10L17/20 , G10L21/0208 , G10L21/043
摘要: 本公开提供了用于识别语音的方法、装置、设备、介质和产品,涉及人工智能技术领域,尤其涉及语音技术领域。具体实现方案为:获取目标语音;基于目标语音和预设的语音识别模型,确定目标语音对应的用户特征向量集合;将用户特征向量集合中的各个用户特征向量拼接,得到目标特征向量;基于目标特征向量,确定目标语音对应的用户特征信息。本实现方式可以提高对用户特征的识别准确度。
-
公开(公告)号:CN110097890B
公开(公告)日:2021-11-02
申请号:CN201910305630.2
申请日:2019-04-16
申请人: 北京搜狗科技发展有限公司 , 搜狗(杭州)智能科技有限公司
IPC分类号: G10L21/003 , G10L21/007 , G10L21/043 , G10L15/26 , G10L13/04
摘要: 本发明实施例提供了一种语音处理方法、装置和用于语音处理的装置。其中的方法具体包括:获取源语音数据流,所述源语音数据流由实时采集的语音数据形成;对所述源语音数据流进行声学特征提取,以得到所述源语音数据流对应的源声学特征;根据所述源声学特征,依次将采集的源语音数据流实时转换为具有目标声学特征的目标语音数据流;其中,所述目标声学特征与所述源声学特征包含相同的语音内容和不同的音色特征。通过本发明实施例不仅可以实现实时变声,为用户生活增加趣味性,以满足用户多样化的需求,而且可以减少变声过程的操作流程,进一步提高变声的效率。
-
公开(公告)号:CN113179442A
公开(公告)日:2021-07-27
申请号:CN202110425839.X
申请日:2021-04-20
申请人: 浙江工业大学
IPC分类号: H04N21/43 , H04N21/439 , H04N5/262 , H04N5/04 , G10L15/26 , G10L25/24 , G10L25/57 , G10L25/51 , G10L21/043 , G10L21/0208
摘要: 本发明公开了一种基于语音识别的视频中音频流替换方法。所述方法为:首先通过对音频进行端点检测得到音频中人说的前后端点,然后对音频进行降噪提取特征值,再通过声音模型和语言模型进行语音识别,然后根据识别出的字的特征值得出该字的起止时间,通过计算该演讲者的语音特征和机器合成的音频进行合成,实现视频中的音频流替换过程。本发明能够得到语音识别结果中每个字在音频中的起始时间与结束时间,得到识别结果中每个字在音频中的起始时间与结束时间,通过计算使得视频中音频流替换更加科学准确,可以在语音识别效果检测和视频制作领域起到巨大作用。
-
公开(公告)号:CN112599148A
公开(公告)日:2021-04-02
申请号:CN202011624401.6
申请日:2020-12-31
申请人: 北京声智科技有限公司
IPC分类号: G10L21/043 , G10L15/02 , G10L15/06 , G10L25/45
摘要: 本发明适用于语音识别技术领域,提供了一种语音识别方法及装置,该方法包括:对获取的第一音频数据进行语速识别,获取所述第一音频数据的初始语速;基于基准语速和所述初始语速,对所述第一音频数据进行语音变速处理,获得调整后的第二音频数据,所述第二音频数据的语速与所述基准语速一致;对所述第二音频数据进行语音识别,获取语音识别结果。本发明通过对音频数据的语速进行调整后再进行语音识别,由于音频数据的语速与基准语速一致,因此可以极大减少语音识别模型的训练数据,从而节省音频数据资源和训练时间成本。
-
公开(公告)号:CN112562719A
公开(公告)日:2021-03-26
申请号:CN202011373933.7
申请日:2020-11-30
申请人: 清华珠三角研究院 , 赛业(广州)生物科技有限公司
IPC分类号: G10L21/043 , G10L25/57 , H04N21/44 , H04N21/4402 , H04N21/439 , H04N5/262
摘要: 本发明公开了一种合成语音与原始视频匹配方法、系统、装置及存储介质,其中所述方法包括:获取原始视频的第一长度;获取合成语音的第二长度;根据所述第一长度与所述第二长度的长度差异,对所述原始视频和/或所述合成语音进行变速处理。本申请使得变速处理后的视频与语音的长度一致,提高用户的观感体验。本申请可广泛应用于视频处理领域。
-
公开(公告)号:CN111724774A
公开(公告)日:2020-09-29
申请号:CN201910223485.3
申请日:2019-03-22
申请人: 阿里巴巴集团控股有限公司
发明人: 罗婷
IPC分类号: G10L15/22 , G10L13/033 , G10L21/043
摘要: 本公开提出了一种语音交互方法、装置、设备及存储介质。接收用户的第一语音信息;根据第一语音信息的第一特征,调整输出的第二语音信息的第二特征。例如,可以根据第一语音信息的语义密度,调整与输出的第二语音信息相关的参数,其中,语义密度用于表征第一语音信息在单位时间内传达的语义信息量。由此,可以为良好的语音交互体验提供技术支持。
-
公开(公告)号:CN111670470A
公开(公告)日:2020-09-15
申请号:CN201980012359.1
申请日:2019-01-15
申请人: 西门子瑞士有限公司
IPC分类号: G10L15/22 , G10L21/043 , G10L21/003
摘要: 用于尤其是为了操控建筑物中的房间操作元件而提供基于语音的服务的方法和系统,其中通过音频设备接收语音指令,其中所述音频设备设立为,对接收到的语音指令进行分析,将接收到的语音指令转换成相对应的针对房间操作元件的操作命令,以操控建筑物中的尤其是HVAC设备(例如现场设备),并且转交给相对应的房间操作元件;而且其中在音频设备处接收到语音指令之前,通过匿名化服务将所述语音指令的发送方(用户)的身份匿名化。
-
-
-
-
-
-
-
-
-