-
公开(公告)号:CN118334247B
公开(公告)日:2024-12-13
申请号:CN202410477682.9
申请日:2024-04-19
Applicant: 北京科技大学
IPC: G06T17/00 , G06N3/0475 , G06N3/094 , G06N3/0455 , G06N3/0442
Abstract: 本发明公开了一种基于双路径Transformer的生成对抗网络协同手势合成方法及装置,涉及人机交互技术领域。包括:获取文本数据、音频数据以及说话者身份数据,输入到构建好的基于Transformer的跨模态融合网络模型,得到手势合成结果;其中,基于Transformer的跨模态融合网络模型包括:前端单模态编码器模块、跨模态融合模块以及手势翻译模块。本发明引入了一种创新性的多模态融合机制,实现端到端的协同语音手势生成。融合机制通过并行定向跨模态Transformer和交互式级联二维注意力模块的协同作用进行,填补了单个模态的不足,有助于模型将焦点集中在与手势相关的上下文和语音信息上。实现了无需预定义的三维手势生成,而非仅限于简单地预测手势类别,并在实现上取得了最优效果。
-
公开(公告)号:CN118865940A
公开(公告)日:2024-10-29
申请号:CN202410848619.1
申请日:2024-06-27
Applicant: 北京科技大学
IPC: G10L13/027 , G10L13/08
Abstract: 本发明提供一种说话人提取方法及系统,涉及语音识别技术领域,方法包括:获取文本信息和待识别混合音频,所述待识别混合音频中包括目标说话人的目标语音;将所述文本信息和所述待识别音频输入至语音识别模型,确定所述目标说话人,所述语音识别模型包括提示文本提取说话人(PTE)网络和文本语音识别(TSR)网络中的至少一者。本发明通过获取文本信息和待识别混合音频,并将所述文本信息和所述待识别音频输入至语音识别模型,能够同时关注声音的频谱特征和文本信息,又因为所述语音识别模型包括提示文本提取说话人(PTE)网络和文本语音识别(TSR)网络中的至少一者,能够利用混合音频场景下的视觉特性。
-
公开(公告)号:CN118334247A
公开(公告)日:2024-07-12
申请号:CN202410477682.9
申请日:2024-04-19
Applicant: 北京科技大学
IPC: G06T17/00 , G06N3/0475 , G06N3/094 , G06N3/0455 , G06N3/0442
Abstract: 本发明公开了一种基于双路径Transformer的生成对抗网络协同手势合成方法及装置,涉及人机交互技术领域。包括:获取文本数据、音频数据以及说话者身份数据,输入到构建好的基于Transformer的跨模态融合网络模型,得到手势合成结果;其中,基于Transformer的跨模态融合网络模型包括:前端单模态编码器模块、跨模态融合模块以及手势翻译模块。本发明引入了一种创新性的多模态融合机制,实现端到端的协同语音手势生成。融合机制通过并行定向跨模态Transformer和交互式级联二维注意力模块的协同作用进行,填补了单个模态的不足,有助于模型将焦点集中在与手势相关的上下文和语音信息上。实现了无需预定义的三维手势生成,而非仅限于简单地预测手势类别,并在实现上取得了最优效果。
-
-