-
公开(公告)号:CN118800238A
公开(公告)日:2024-10-18
申请号:CN202410818727.4
申请日:2024-06-24
申请人: 中国科学院深圳先进技术研究院
摘要: 本发明公开了一种基于超声的语音识别和重构方法与系统。该方法包括:采集目标的语音音频信号和对应的超声舌位图;从所述语音音频信号中获得声学特征,并基于所述超声舌位图提取对应的舌位运动特征;将所述声学特征和所述舌位运动特征拼接成总体特征,输入到经训练的语音识别模型,获得对应的文本信息;以所述文本信息和所述舌位运动特征作为输入,利用经训练的语音合成模型,获得重构语音。本发明能够将障碍语音转化为易于理解的文字以及正常语音,有利于语音障碍患者与外界进行正常交流。
-
公开(公告)号:CN118411983B
公开(公告)日:2024-10-11
申请号:CN202410455536.6
申请日:2024-04-16
申请人: 北京四方智汇信息科技有限公司
IPC分类号: G10L15/02 , G10L15/18 , G10L15/16 , G10L15/24 , G10L15/26 , G10L25/63 , G06F40/30 , G06N3/0442 , G06N3/0455 , G06N3/0895 , G06N3/092
摘要: 本发明公开了基于语音识别模型的数据处理方法,涉及语音数据处理技术领域,本发明通过融合多模态信息,并利用深度学习模型将语音和文本信息进行联合处理,提高对通信内容的全面理解能力,采用自适应神经网络结构和增强学习技术,使得系统能够根据实时情况动态调整处理策略,提高了处理效率和准确性,实现对通信内容的情感分析和语义理解,使得系统能够更好地理解通信内容,提高了处理的智能化程度,异常情况检测上,通过建立时序模型和引入异常检测算法,实现对通信内容的实时异常检测,并结合增强学习技术建立自适应异常检测系统,提高异常检测的准确性和及时性。
-
公开(公告)号:CN118737149A
公开(公告)日:2024-10-01
申请号:CN202310324160.0
申请日:2023-03-29
申请人: 北京罗克维尔斯科技有限公司
IPC分类号: G10L15/24 , B60R16/037 , G10L25/63
摘要: 本申请公开了一种音频播放方法、装置、设备、存储介质及车辆,属于车辆技术领域。播放目标音频;在目标时间点下,获取目标用户的历史语音时长,历史语音时长为目标用户在目标时段内输入的历史语音的时长,目标时段在目标时间点之前且与目标时间点间隔预设时长的时段;确定与历史语音时长对应的交谈状态信息,交谈状态信息用于指示目标用户是否处于交谈状态;在交谈状态信息指示目标用户处于交谈状态的情况下,调整目标音频的播放状态。根据本申请实施例,能够自动调整目标音频的播放状态,从而降低播放音频对用户交谈的干扰。
-
公开(公告)号:CN112102843B
公开(公告)日:2024-09-06
申请号:CN202010990404.5
申请日:2020-09-18
申请人: 北京搜狗科技发展有限公司
摘要: 本发明实施例提供了一种语音识别方法、装置和电子设备,其中,所述方法包括:获取目标音频数据和与目标音频数据关联的目标图像数据,所述目标图像数据是录音设备在录制目标音频数据过程中采集的;依据所述目标图像数据对所述目标音频数据进行语音识别,确定对应的语音识别文本信息;进而通过结合与目标音频数据关联的信息,对所述目标音频数据进行语音识别,来提高语音识别的准确率。
-
公开(公告)号:CN118540456A
公开(公告)日:2024-08-23
申请号:CN202410588450.0
申请日:2024-05-13
申请人: 哆想(厦门)智能技术有限公司
IPC分类号: H04N13/361 , H04N13/156 , G10L15/24 , G10L15/26
摘要: 本发明公开了数据处理技术领域的一种用于虚拟数字前台的智能装置呈现的方法,涉及虚拟数字前台领域,该用于虚拟数字前台的智能装置呈现的方法包括如下步骤:S1:通过智能化数实显示平台模块显示数字人图像,通过智能化数实控制功能模块采集语音、人像信息并对采集的信息进行处理;S2:经过处理后的信息反馈到智能化数实显示平台模块内,通过智能化数实显示平台模块根据终端处理器给出的数据信息控制数字人做出相应的动作表情以及输出相应的语音信息,该种用于虚拟数字前台的智能装置呈现的方法,使得呈现出一个整体的3D立体图像,代替真人前台,实现传统前台等更多业务的全面智慧化、数字化升级,具有更高的大规模落地可行性和价值空间。
-
公开(公告)号:CN118538209A
公开(公告)日:2024-08-23
申请号:CN202310201777.3
申请日:2023-02-23
申请人: 腾讯科技(深圳)有限公司
发明人: 冯鑫
摘要: 本申请公开了一种音频处理方法、装置、产品、设备和介质,该方法包括:获取第一音频与第二音频间的N个距离特征;一个距离特征用于指示第一音频中一个音频片段与第二音频中一个音频片段间的相似程度;基于N个距离特征生成距离特征图像;一个距离特征在距离特征图像中对应一个图像块,符合相似评估标准的距离特征对应的图像块在距离特征图像中为目标显示形式;检测目标显示形式的图像块在距离特征图像中的分布形态;若距离特征图像包含定位分布形态,则基于形成定位分布形态的图像块在第一音频中定位第二音频的位置;距离特征图像包含定位分布形态指示第一音频包含第二音频。采用本申请,可提高在第一音频中对第二音频进行定位的效率。
-
公开(公告)号:CN113986016B
公开(公告)日:2024-08-09
申请号:CN202111348785.8
申请日:2018-02-09
申请人: 微软技术许可有限责任公司
IPC分类号: G06F3/01 , A61B5/00 , A61B5/0205 , A61B5/0507 , A61B5/11 , A61B5/117 , G01S5/18 , G01S5/28 , G01S13/72 , G06F1/3206 , G06F1/3231 , G06F1/324 , G06F1/329 , G06F3/03 , G06F3/0482 , G06F3/0484 , G06F3/16 , G06F21/32 , G06F21/35 , G06F40/211 , G06F40/35 , G06N5/025 , G06N5/04 , G06N20/00 , G06T7/246 , G06T7/292 , G06T7/60 , G06T7/70 , G06T7/73 , G07C9/28 , G08B13/14 , G10L15/02 , G10L15/06 , G10L15/08 , G10L15/18 , G10L15/19 , G10L15/22 , G10L15/24 , G10L15/26 , G10L15/28 , G10L15/32 , G10L17/04 , G10L17/08 , G10L17/22 , G10L25/51 , H04N21/422 , H04N21/442 , H04N7/18 , H04N21/231 , H04R1/40 , H04R3/00 , H04W4/029 , H04W4/33 , G06V40/10 , G06V10/94 , G06V20/52 , G06V30/262 , G06V20/40 , G06V40/20
摘要: 一种智能助理。本文公开了与实体跟踪相关的示例。一个示例提供了一种计算设备:包括逻辑处理器;以及存储设备,该存储设备保存可由逻辑处理器执行的指令以:接收包括人的环境的图像数据、使用面部检测算法处理图像数据以便以第一频率产生第一面部检测输出、基于第一面部检测输出确定人的身份、以及使用与面部检测算法相比使用更少的计算设备的计算资源的另一算法处理图像数据。该指令可进一步执行以基于跟踪输出跟踪环境中的人,以及执行以下中的一者或多者:使用第二面部检测输出更新另一算法,以及使用跟踪输出更新面部检测算法。
-
公开(公告)号:CN118430526A
公开(公告)日:2024-08-02
申请号:CN202410562147.3
申请日:2024-05-08
申请人: 广州万梓千宸网络科技有限公司
摘要: 本发明公开了一种基于用户行为的语音交互方法及系统,其中,所述方法包括:获得第一用户输入的音频信息;获得所述第一用户的周围环境信息;判断所述周围环境信息是否满足第一预设条件;若不满足,则对所述音频信息进行过滤处理后,获得第一语音信息;判断所述第一语音信息是否满足第二预设条件;若不满足所述第二预设条件,获得所述第一用户的个人标签信息;根据所述个人标签信息,对所述第一语音信息的语义进行解析后,获得第一操作信息,继而根据所述第一操作信息,所述语音客户端执行所述第一用户的第一操作命令。实现了依据态势感知对情景的感知、理解和预测实现更智能、准确的语音交互的技术结果。
-
公开(公告)号:CN111933131B
公开(公告)日:2024-07-23
申请号:CN202010407937.6
申请日:2020-05-14
申请人: 联想(北京)有限公司
摘要: 本发明公开了一种语音识别方法以及装置,包括:根据影像信息,识别得到用于表征所述影像信息的信息数据;判断讲述者的讲述内容与所述影像信息是否相关联;若判定讲述者的讲述内容与所述影像信息相关联,则使语音识别系统在语音识别所述讲述内容时输出所述信息数据。由此,在语音识别讲述者的讲述内容时,通过利用与讲述内容相关联的影像信息,使得语音识别系统输出对应于影像信息的信息数据,进而提高了语音识别准确率。
-
公开(公告)号:CN118366433A
公开(公告)日:2024-07-19
申请号:CN202410442526.9
申请日:2024-04-12
申请人: 中移雄安信息通信科技有限公司 , 中移系统集成有限公司 , 中国移动通信集团有限公司 , 中移信息系统集成有限公司
IPC分类号: G10L15/06 , G10L15/02 , G10L15/16 , G10L15/24 , G06F18/214 , G06F18/25 , G06N3/042 , G06N3/0464 , G06N3/0442 , G06N3/08
摘要: 本申请公开一种伪造语音检测模型的训练方法、伪造语音检测方法及设备,属于多媒体安全技术领域。该方法包括:获取多个音频样本文件;从多个音频样本文件的文本数据和音频数据中提取多模态样本特征,对多模态样本特征进行特征融合处理,得到各个音频样本文件对应的融合特征;使用多个音频样本文件对应的融合特征对预先构建的自蒸馏声学模型进行迭代训练,得到伪造语音检测模型。这样,能够使自蒸馏声学模型充分挖掘不同模态特征之间的相关性,提高模型的表达能力和泛化能力,从而有利于提高伪造语音检测模型对伪造语音检测的准确率。
-
-
-
-
-
-
-
-
-