一种基于超声的语音识别和重构方法与系统

    公开(公告)号:CN118800238A

    公开(公告)日:2024-10-18

    申请号:CN202410818727.4

    申请日:2024-06-24

    摘要: 本发明公开了一种基于超声的语音识别和重构方法与系统。该方法包括:采集目标的语音音频信号和对应的超声舌位图;从所述语音音频信号中获得声学特征,并基于所述超声舌位图提取对应的舌位运动特征;将所述声学特征和所述舌位运动特征拼接成总体特征,输入到经训练的语音识别模型,获得对应的文本信息;以所述文本信息和所述舌位运动特征作为输入,利用经训练的语音合成模型,获得重构语音。本发明能够将障碍语音转化为易于理解的文字以及正常语音,有利于语音障碍患者与外界进行正常交流。

    基于语音识别模型的数据处理方法

    公开(公告)号:CN118411983B

    公开(公告)日:2024-10-11

    申请号:CN202410455536.6

    申请日:2024-04-16

    发明人: 陈卫彬 陈檩

    摘要: 本发明公开了基于语音识别模型的数据处理方法,涉及语音数据处理技术领域,本发明通过融合多模态信息,并利用深度学习模型将语音和文本信息进行联合处理,提高对通信内容的全面理解能力,采用自适应神经网络结构和增强学习技术,使得系统能够根据实时情况动态调整处理策略,提高了处理效率和准确性,实现对通信内容的情感分析和语义理解,使得系统能够更好地理解通信内容,提高了处理的智能化程度,异常情况检测上,通过建立时序模型和引入异常检测算法,实现对通信内容的实时异常检测,并结合增强学习技术建立自适应异常检测系统,提高异常检测的准确性和及时性。

    一种音频播放方法、装置、设备、存储介质及车辆

    公开(公告)号:CN118737149A

    公开(公告)日:2024-10-01

    申请号:CN202310324160.0

    申请日:2023-03-29

    发明人: 王帅 勾晓菲

    摘要: 本申请公开了一种音频播放方法、装置、设备、存储介质及车辆,属于车辆技术领域。播放目标音频;在目标时间点下,获取目标用户的历史语音时长,历史语音时长为目标用户在目标时段内输入的历史语音的时长,目标时段在目标时间点之前且与目标时间点间隔预设时长的时段;确定与历史语音时长对应的交谈状态信息,交谈状态信息用于指示目标用户是否处于交谈状态;在交谈状态信息指示目标用户处于交谈状态的情况下,调整目标音频的播放状态。根据本申请实施例,能够自动调整目标音频的播放状态,从而降低播放音频对用户交谈的干扰。

    一种语音识别方法、装置和电子设备

    公开(公告)号:CN112102843B

    公开(公告)日:2024-09-06

    申请号:CN202010990404.5

    申请日:2020-09-18

    摘要: 本发明实施例提供了一种语音识别方法、装置和电子设备,其中,所述方法包括:获取目标音频数据和与目标音频数据关联的目标图像数据,所述目标图像数据是录音设备在录制目标音频数据过程中采集的;依据所述目标图像数据对所述目标音频数据进行语音识别,确定对应的语音识别文本信息;进而通过结合与目标音频数据关联的信息,对所述目标音频数据进行语音识别,来提高语音识别的准确率。

    一种用于虚拟数字前台的智能装置呈现的方法

    公开(公告)号:CN118540456A

    公开(公告)日:2024-08-23

    申请号:CN202410588450.0

    申请日:2024-05-13

    发明人: 涂锦旺 涂炎旺

    摘要: 本发明公开了数据处理技术领域的一种用于虚拟数字前台的智能装置呈现的方法,涉及虚拟数字前台领域,该用于虚拟数字前台的智能装置呈现的方法包括如下步骤:S1:通过智能化数实显示平台模块显示数字人图像,通过智能化数实控制功能模块采集语音、人像信息并对采集的信息进行处理;S2:经过处理后的信息反馈到智能化数实显示平台模块内,通过智能化数实显示平台模块根据终端处理器给出的数据信息控制数字人做出相应的动作表情以及输出相应的语音信息,该种用于虚拟数字前台的智能装置呈现的方法,使得呈现出一个整体的3D立体图像,代替真人前台,实现传统前台等更多业务的全面智慧化、数字化升级,具有更高的大规模落地可行性和价值空间。

    音频处理方法、装置、产品、设备和介质

    公开(公告)号:CN118538209A

    公开(公告)日:2024-08-23

    申请号:CN202310201777.3

    申请日:2023-02-23

    发明人: 冯鑫

    摘要: 本申请公开了一种音频处理方法、装置、产品、设备和介质,该方法包括:获取第一音频与第二音频间的N个距离特征;一个距离特征用于指示第一音频中一个音频片段与第二音频中一个音频片段间的相似程度;基于N个距离特征生成距离特征图像;一个距离特征在距离特征图像中对应一个图像块,符合相似评估标准的距离特征对应的图像块在距离特征图像中为目标显示形式;检测目标显示形式的图像块在距离特征图像中的分布形态;若距离特征图像包含定位分布形态,则基于形成定位分布形态的图像块在第一音频中定位第二音频的位置;距离特征图像包含定位分布形态指示第一音频包含第二音频。采用本申请,可提高在第一音频中对第二音频进行定位的效率。

    一种基于用户行为的语音交互方法及系统

    公开(公告)号:CN118430526A

    公开(公告)日:2024-08-02

    申请号:CN202410562147.3

    申请日:2024-05-08

    发明人: 吴智锐 王凯 李晖

    IPC分类号: G10L15/18 G10L15/22 G10L15/24

    摘要: 本发明公开了一种基于用户行为的语音交互方法及系统,其中,所述方法包括:获得第一用户输入的音频信息;获得所述第一用户的周围环境信息;判断所述周围环境信息是否满足第一预设条件;若不满足,则对所述音频信息进行过滤处理后,获得第一语音信息;判断所述第一语音信息是否满足第二预设条件;若不满足所述第二预设条件,获得所述第一用户的个人标签信息;根据所述个人标签信息,对所述第一语音信息的语义进行解析后,获得第一操作信息,继而根据所述第一操作信息,所述语音客户端执行所述第一用户的第一操作命令。实现了依据态势感知对情景的感知、理解和预测实现更智能、准确的语音交互的技术结果。

    一种语音识别方法以及装置

    公开(公告)号:CN111933131B

    公开(公告)日:2024-07-23

    申请号:CN202010407937.6

    申请日:2020-05-14

    IPC分类号: G10L15/22 G10L15/24 G10L15/26

    摘要: 本发明公开了一种语音识别方法以及装置,包括:根据影像信息,识别得到用于表征所述影像信息的信息数据;判断讲述者的讲述内容与所述影像信息是否相关联;若判定讲述者的讲述内容与所述影像信息相关联,则使语音识别系统在语音识别所述讲述内容时输出所述信息数据。由此,在语音识别讲述者的讲述内容时,通过利用与讲述内容相关联的影像信息,使得语音识别系统输出对应于影像信息的信息数据,进而提高了语音识别准确率。