-
公开(公告)号:CN112599114B
公开(公告)日:2024-06-18
申请号:CN202011250788.3
申请日:2020-11-11
申请人: 联想(北京)有限公司
摘要: 本发明公开了一种语音识别方法及装置,在对包括第一对象与第二对象之间至少两组交互的待处理语音中的每一交互语音数据进行特征提取后,利用第一声学模型对特征提取结果进行解码,得到第一识别结果,并根据第一识别结果,确定交互语音数据中的关键词;然后利用第二声学模型对关键词进行识别,得到第二识别结果;根据关键词和第二识别结果,确定待处理语音中与关键词对应的语义词,构建关键词与语义词的映射;并根据映射,对第二识别结果进行修正,输出待处理语音的识别结果。避免了在语音识别装置应用前准备大量的语音和文本数据进行模型训练,有效提高模型的通用性,并在应用过程中快速提高语音识别的精确度。
-
公开(公告)号:CN111785246B
公开(公告)日:2024-06-18
申请号:CN202010617733.5
申请日:2020-06-30
申请人: 联想(北京)有限公司
摘要: 本申请提出了一种虚拟角色语音处理方法、装置及计算机设备,针对现有的语音合成引擎的虚拟角色固定单一,无法满足用户个性化需求的问题,本申请提出自定义虚拟角色的发明构思,具体的,计算机设备可以响应针对语音合成引擎的虚拟角色配置请求,输出虚拟角色配置界面,用户可以根据自身喜好及需求,在该虚拟角色配置界面相应位置输入虚拟角色的多个形象特征等属性信息,以利用人工智能技术得到与该属性信息相匹配的虚拟角色图像和虚拟角色声音特征,从而利用该虚拟角色图像和虚拟角色声音特征,构建成用户自定义的虚拟角色画像并展示,满足了不同用户对语音合成引擎的虚拟角色的个性化需求,提高了人机语音交互的多样性及乐趣。
-
公开(公告)号:CN114627888A
公开(公告)日:2022-06-14
申请号:CN202210324148.5
申请日:2022-03-28
申请人: 联想(北京)有限公司
IPC分类号: G10L21/02 , G10L21/0208 , H04M3/56
摘要: 本申请公开了一种音频信号处理方法、装置及电子设备,该方法包括:确定音频采集装置当前采集到的音频信号的第一发声源相对音频采集装置的第一方位信息;确定第一方位信息与第二方位信息之间的差异信息,第一方位信息与第二方位信息为确定的相邻两次方位信息;根据差异信息确定第一发声源与第二发声源是否相同;在第一发声源与第二发声源不同的情况下,分别基于第一方位信息和第二方位信息对音频采集装置采集到的音频信号进行语音增强,得到对应第一方位信息的第一语音增强信号和对应第二方位信息的第二语音增强信号。本申请的方案可以提高音频处理效果。
-
公开(公告)号:CN109978145B
公开(公告)日:2021-09-14
申请号:CN201910251748.1
申请日:2019-03-29
申请人: 联想(北京)有限公司
摘要: 本申请公开一种处理方法,包括:获得待处理的目标对象;将目标对象输入至预先构建的深度神经网络模型中;其中,深度神经网络模型包括多个深度神经网络分组,深度神经网络分组由至少一层神经网络构成;获得多个深度神经网络分组中指定分组所输出的目标特征,并基于目标特征执行认证操作。由此可见,本申请采用一个深度神经网络模型即可完成认证操作,实现了联合设计。
-
公开(公告)号:CN113077802A
公开(公告)日:2021-07-06
申请号:CN202110281157.6
申请日:2021-03-16
申请人: 联想(北京)有限公司
摘要: 本发明公开了一种信息处理方法和装置,包括:以各个区域为单位,对电子设备采集到的第一语音信号进行语音增强处理,获得各个区域分别对应的第二语音信号;根据各个区域分别对应的第二语音信号进行语音激活处理,获得被激活的至少一个候选区域;对候选区域后续对应的第三语音信号进行语音增强处理,获得对应候选区域的第四语音信号;若确定第二语音信号与第四语音信号属于同一个目标对象,则对候选区域进行细粒度划分调整;根据细粒度划分调整结果更新第一规则。通过多次对目标对象的语音信号增强、激活和区域细粒度调整处理,可逐步精确目标对象的方向位置,从而能提高后续的语音激活性能以及语音交互体验。
-
公开(公告)号:CN113012706A
公开(公告)日:2021-06-22
申请号:CN202110189853.4
申请日:2021-02-18
申请人: 联想(北京)有限公司
IPC分类号: G10L21/013 , G10L21/007 , G10L15/26 , G10L21/10 , G10L21/14 , G10L25/30 , G06F16/583 , G06F16/683 , G06F40/30 , G06N3/08
摘要: 本申请公开了一种数据处理方法、装置及电子设备,包括获取第一音频数据,将第一音频数据进行转换,获得第一音频图像;基于第一音频图像,生成第二音频图像;对第二音频图像对应的音频特征信息进行处理,获得第二音频数据。通过音频图像的转换方式,实现了通过已有音频数据生成与之具有相同的语义,且不同音频属性特征的音频数据的目的,降低了数据收集的时间成本及难度。
-
公开(公告)号:CN110827823A
公开(公告)日:2020-02-21
申请号:CN201911107847.9
申请日:2019-11-13
申请人: 联想(北京)有限公司
摘要: 本申请提出了一种语音辅助识别方法、装置、存储介质及电子设备,电子设备在获取包含多个语音的语音信息的同时,可以获取拍摄范围内人脸图像的嘴部运动信息,之后,利用预先训练处的语音辅助训练模型,对该嘴部运动信息及多个语音进行分析计算,快速且准确地从这多个语音中提取出电子设备使用者输出的目标语音,进而保证了输出的文本信息即为使用者在嘈杂场景下所说的内容,极大提高了嘈杂场景下语音识别的效率及准确性。
-
公开(公告)号:CN109978145A
公开(公告)日:2019-07-05
申请号:CN201910251748.1
申请日:2019-03-29
申请人: 联想(北京)有限公司
摘要: 本申请公开一种处理方法,包括:获得待处理的目标对象;将目标对象输入至预先构建的深度神经网络模型中;其中,深度神经网络模型包括多个深度神经网络分组,深度神经网络分组由至少一层神经网络构成;获得多个深度神经网络分组中指定分组所输出的目标特征,并基于目标特征执行认证操作。由此可见,本申请采用一个深度神经网络模型即可完成认证操作,实现了联合设计。
-
公开(公告)号:CN118942462A
公开(公告)日:2024-11-12
申请号:CN202411215280.8
申请日:2024-08-30
申请人: 联想(北京)有限公司
IPC分类号: G10L15/26 , G10L15/16 , G10L15/197 , G10L15/04
摘要: 本公开提供了一种语音识别方法,包括:利用语音识别模型对待识别语音信息中的待识别语音片段进行识别,得到与待识别语音片段对应的至少一个初始识别结果;待识别语音信息包括多个语音片段;利用目标大模型,基于待识别语音信息中待识别语音片段之前其他语音片段的目标识别结果,根据至少一个初始识别结果确定待识别语音片段的目标识别结果;根据目标识别结果确定待识别语音信息对应的文本信息。
-
公开(公告)号:CN116631378A
公开(公告)日:2023-08-22
申请号:CN202310632296.8
申请日:2023-05-31
申请人: 联想(北京)有限公司
摘要: 本申请提供了一种语音处理方法及装置,该方法包括:确定出获得到空间区域的内容,对空间区域的内容进行处理,得到第一处理结果,内容与语音不同;基于第一处理结果确定出空间区域内有目标对象,确定出获得到至少一条语音,对至少一条语音进行处理,得到第二处理结果,以基于第二处理结果,对目标对象的语音进行语音识别。
-
-
-
-
-
-
-
-
-