一种智能机器人的多模态融合自然交互方法、系统及介质

    公开(公告)号:CN114995657A

    公开(公告)日:2022-09-02

    申请号:CN202210838251.1

    申请日:2022-07-18

    Applicant: 湖南大学

    Abstract: 本发明公开了一种智能机器人的多模态融合自然交互方法、系统及介质,本发明方法包括根据音频数据、视觉数据及距离数据等多种模态交互特征进行多模态融合意图理解以确定目标交互对象的交互意愿,并执行对目标交互对象执行交互管理,包括用户状态管理、交互状态跟踪以及情感化交互决策;基于情感化交互决策的结果生成面向目标交互对象的交互反馈结果,并针对交互反馈结果执行交互反馈结果生成并输出。本发明能够结合多种模态的用户交互特征提升意图理解、交互决策和反馈生成等环节的交互准确度,能根据个人情况和即时状态做出因人而异的类人情感化个性化交互反馈,提升机器人自然交互的用户体验。

    一种基于混合注意力的人机对话生成方法、系统及介质

    公开(公告)号:CN114996431A

    公开(公告)日:2022-09-02

    申请号:CN202210916763.5

    申请日:2022-08-01

    Applicant: 湖南大学

    Abstract: 本发明公开了一种基于混合注意力的人机对话生成方法、系统及介质,本发明方法包括将交互对象的说话内容提取文本特征序列Fw,并将文本特征序列Fw基于位置编码矩阵PE进行位置编码,得到引入位置信息的文本特征序列Fwp;分别通过全局自注意力机制、稀疏注意力机制提取特征再进行线性融合得到特征序列Fen;最后提取回复文本序列Y的注意力向量Ac并与Fen进行点乘得到表示向量hf;通过前馈神经网络对表示向量hf获取面向回复文本序列Y的概率表示P(Y)并定向搜索最优的回复文本并输出。本发明能够提高人机对话生成的质量,有效的表示说话人内容,可广泛应用于人机对话生成。

    一种人机交互场景下多特征融合的沉浸度计算方法及系统

    公开(公告)号:CN114998700A

    公开(公告)日:2022-09-02

    申请号:CN202210663978.0

    申请日:2022-06-14

    Applicant: 湖南大学

    Abstract: 本发明公开了一种人机交互场景下多特征融合的沉浸度计算方法及系统,本发明方法包括:确定人机交互场景下从用户的实时图像提取得到的多种特征的序列,包含人机交互距离特征、人体姿态特征、头部姿态特征、面部姿态特征、眼部姿态特征以及唇部运动特征中的部分或者全部;对多种特征的序列进行联合表示,得到特征表示向量Hde并通过分类器进行分类得到沉浸度。本发明能够实现人机交互场景下多特征融合的沉浸度计算,准确的评估人与机器人的交互意愿,可有效提升人机交互场景下的交互体验,且结合多种特征的时序信息,可有效提升用户的沉浸度计算的准确度,还可以进一步实现目标用户选择、机器人工作状态控制。

    一种基于跨模态注意力增强的唇语识别方法及系统

    公开(公告)号:CN113435421A

    公开(公告)日:2021-09-24

    申请号:CN202110986219.3

    申请日:2021-08-26

    Applicant: 湖南大学

    Abstract: 本发明公开了一种基于跨模态注意力增强的唇语识别方法及系统,本发明包括提取唇部图像序列和唇部运动信息,通过预训练特征提取器获取对应的唇部特征序列和唇部运动序列,将得到的特征序列输入跨模态注意力网络,得到唇部增强特征序列;通过多分支注意力机制建立模态内特征序列的时序关联性,并在输出端特定的选择输入中相关的信息。本发明通过考虑时序信息之间的关联性,将相邻帧之间进行光流计算得到视觉特征之间的运动信息,利用运动信息对唇部视觉特征进行表示并进行融合增强,充分利用了模态内的上下文信息,最后通过多分支注意力机制进行模态内特征的关联表示和选择,提升了唇读识别的准确率。

    一种跨模态多特征融合的音视频语音识别方法及系统

    公开(公告)号:CN112053690A

    公开(公告)日:2020-12-08

    申请号:CN202011001648.2

    申请日:2020-09-22

    Applicant: 湖南大学

    Abstract: 本发明涉及音视频语音识别技术,考虑到在实际机器人应用环境中,语音交互易受复杂环境噪声影响、而面部运动信息通过视频获取、且相对较稳定这一情况,本发明提供一种跨模态多特征融合的音视频语音识别方法及系统,本发明通过注意力机制对语音信息、视觉信息和视觉运动信息进行融合,利用不同模态之间的关联性,更加准确的获取用户所表达的语音内容,提升复杂背景噪音条件下语音识别精度,提高人机交互中语音识别性能,有效克服噪声环境下纯语音识别准确率低的问题。

    一种人机交互场景下多特征融合的沉浸度计算方法及系统

    公开(公告)号:CN114998700B

    公开(公告)日:2024-06-25

    申请号:CN202210663978.0

    申请日:2022-06-14

    Applicant: 湖南大学

    Abstract: 本发明公开了一种人机交互场景下多特征融合的沉浸度计算方法及系统,本发明方法包括:确定人机交互场景下从用户的实时图像提取得到的多种特征的序列,包含人机交互距离特征、人体姿态特征、头部姿态特征、面部姿态特征、眼部姿态特征以及唇部运动特征中的部分或者全部;对多种特征的序列进行联合表示,得到特征表示向量Hde并通过分类器进行分类得到沉浸度。本发明能够实现人机交互场景下多特征融合的沉浸度计算,准确的评估人与机器人的交互意愿,可有效提升人机交互场景下的交互体验,且结合多种特征的时序信息,可有效提升用户的沉浸度计算的准确度,还可以进一步实现目标用户选择、机器人工作状态控制。

    一种基于混合注意力的人机对话生成方法、系统及介质

    公开(公告)号:CN114996431B

    公开(公告)日:2022-11-04

    申请号:CN202210916763.5

    申请日:2022-08-01

    Applicant: 湖南大学

    Abstract: 本发明公开了一种基于混合注意力的人机对话生成方法、系统及介质,本发明方法包括将交互对象的说话内容提取文本特征序列Fw,并将文本特征序列Fw基于位置编码矩阵PE进行位置编码,得到引入位置信息的文本特征序列Fwp;分别通过全局自注意力机制、稀疏注意力机制提取特征再进行线性融合得到特征序列Fen;最后提取回复文本序列Y的注意力向量Ac并与Fen进行点乘得到表示向量hf;通过前馈神经网络对表示向量hf获取面向回复文本序列Y的概率表示P(Y)并定向搜索最优的回复文本并输出。本发明能够提高人机对话生成的质量,有效的表示说话人内容,可广泛应用于人机对话生成。

    一种基于跨模态注意力增强的唇语识别方法及系统

    公开(公告)号:CN113435421B

    公开(公告)日:2021-11-05

    申请号:CN202110986219.3

    申请日:2021-08-26

    Applicant: 湖南大学

    Abstract: 本发明公开了一种基于跨模态注意力增强的唇语识别方法及系统,本发明包括提取唇部图像序列和唇部运动信息,通过预训练特征提取器获取对应的唇部特征序列和唇部运动序列,将得到的特征序列输入跨模态注意力网络,得到唇部增强特征序列;通过多分支注意力机制建立模态内特征序列的时序关联性,并在输出端特定的选择输入中相关的信息。本发明通过考虑时序信息之间的关联性,将相邻帧之间进行光流计算得到视觉特征之间的运动信息,利用运动信息对唇部视觉特征进行表示并进行融合增强,充分利用了模态内的上下文信息,最后通过多分支注意力机制进行模态内特征的关联表示和选择,提升了唇读识别的准确率。

    一种跨模态多特征融合的音视频语音识别方法及系统

    公开(公告)号:CN112053690B

    公开(公告)日:2023-12-29

    申请号:CN202011001648.2

    申请日:2020-09-22

    Applicant: 湖南大学

    Abstract: 本发明涉及音视频语音识别技术,考虑到在实际机器人应用环境中,语音交互易受复杂环境噪声影响、而面部运动信息通过视频获取、且相对较稳定这一情况,本发明提供一种跨模态多特征融合的音视频语音识别方法及系统,本发明通过注意力机制对语音信息、视觉信息和视觉运动信息进行融合,利用不同模态之间的关联性,更加准确的获取用户所表达的语音内容,提升复杂背景噪音条件下语音识别精度,提高人机交互中语音识别性能,有效克服噪声环境下纯语音识别(56)对比文件王一鸣 等.基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别.电信科学.2019,(第12期),第79-89页.

    一种智能机器人的多模态融合自然交互方法、系统及介质

    公开(公告)号:CN114995657B

    公开(公告)日:2022-10-21

    申请号:CN202210838251.1

    申请日:2022-07-18

    Applicant: 湖南大学

    Abstract: 本发明公开了一种智能机器人的多模态融合自然交互方法、系统及介质,本发明方法包括根据音频数据、视觉数据及距离数据等多种模态交互特征进行多模态融合意图理解以确定目标交互对象的交互意愿,并执行对目标交互对象执行交互管理,包括用户状态管理、交互状态跟踪以及情感化交互决策;基于情感化交互决策的结果生成面向目标交互对象的交互反馈结果,并针对交互反馈结果执行交互反馈结果生成并输出。本发明能够结合多种模态的用户交互特征提升意图理解、交互决策和反馈生成等环节的交互准确度,能根据个人情况和即时状态做出因人而异的类人情感化个性化交互反馈,提升机器人自然交互的用户体验。

Patent Agency Ranking