-
公开(公告)号:CN111930918A
公开(公告)日:2020-11-13
申请号:CN202011046353.7
申请日:2020-09-29
Applicant: 湖南大学
IPC: G06F16/332 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种跨模态的双边个性化人机社交对话生成方法及系统,本发明包括将对话上下文编码、机器人个性化信息编码、用户个性化信息编码、上一时刻的输出结果的编码进行加权融合得到加权融合编码,再和上一时刻的输出结果的编码一起输入双边个性化生成模型的解码器生成最佳的N条候选回复列表,并选择条件互信息丰度值最大的候选回复作为最终的输出结果。本发明通过跨模态的方式对个性化信息进行融合,同时考虑了交互双方的人物的个性化信息,在保证回复内容合理、语法通顺、逻辑连贯的前提下,充分利用了交互双方的个性化特征,能够生成富有个性、因人而异的回复。
-
公开(公告)号:CN114996513B
公开(公告)日:2024-06-28
申请号:CN202210510047.7
申请日:2022-05-11
Applicant: 湖南大学
IPC: G06F16/783 , G06F16/78 , G06F16/732 , G06F16/9032 , G06V20/40 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/08 , G06F40/205 , G06V10/80 , G06F16/35 , G06F18/25
Abstract: 本发明公开了一种基于跨模态提示学习的视频问答方法与系统,本发明方法包括:针对示教视频提取视觉特征和文本特征,利用上下文查询注意力得到对应的跨模态输出特征;根据输出特征,利用视频答案区间高亮模块获取视频答案区间高亮特征并作为预训练的语言模型的视觉提示,通过预训练的语言模型基于文本问题、字幕以及视觉提示预测字幕跨度。本发明以高效准确从给定的未剪辑的示教视频中找到问题匹配的视频答案时间段区间,以视频答案时间段区间从语义上回答指定的文本问题为目标,利用视频答案区间高亮模块增强了预训练语言模型中的文本跨度定位,能显著提高视频分类和视频问答的准确率和效率,且适用于各类视频的分类与视频问答任务。
-
公开(公告)号:CN114996431B
公开(公告)日:2022-11-04
申请号:CN202210916763.5
申请日:2022-08-01
Applicant: 湖南大学
IPC: G06F16/332 , G06N3/04 , G06F16/33 , G06F40/279 , G10L15/26 , G10L15/02 , G10L15/183
Abstract: 本发明公开了一种基于混合注意力的人机对话生成方法、系统及介质,本发明方法包括将交互对象的说话内容提取文本特征序列Fw,并将文本特征序列Fw基于位置编码矩阵PE进行位置编码,得到引入位置信息的文本特征序列Fwp;分别通过全局自注意力机制、稀疏注意力机制提取特征再进行线性融合得到特征序列Fen;最后提取回复文本序列Y的注意力向量Ac并与Fen进行点乘得到表示向量hf;通过前馈神经网络对表示向量hf获取面向回复文本序列Y的概率表示P(Y)并定向搜索最优的回复文本并输出。本发明能够提高人机对话生成的质量,有效的表示说话人内容,可广泛应用于人机对话生成。
-
公开(公告)号:CN111930918B
公开(公告)日:2020-12-18
申请号:CN202011046353.7
申请日:2020-09-29
Applicant: 湖南大学
IPC: G06F16/332 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种跨模态的双边个性化人机社交对话生成方法及系统,本发明包括将对话上下文编码、机器人个性化信息编码、用户个性化信息编码、上一时刻的输出结果的编码进行加权融合得到加权融合编码,再和上一时刻的输出结果的编码一起输入双边个性化生成模型的解码器生成最佳的N条候选回复列表,并选择条件互信息丰度值最大的候选回复作为最终的输出结果。本发明通过跨模态的方式对个性化信息进行融合,同时考虑了交互双方的人物的个性化信息,在保证回复内容合理、语法通顺、逻辑连贯的前提下,充分利用了交互双方的个性化特征,能够生成富有个性、因人而异的回复。
-
公开(公告)号:CN114996513A
公开(公告)日:2022-09-02
申请号:CN202210510047.7
申请日:2022-05-11
Applicant: 湖南大学
IPC: G06F16/783 , G06F16/78 , G06F16/732 , G06F16/9032 , G06V20/40 , G06V10/82 , G06N3/04 , G06F40/205 , G06V10/80 , G06F16/35 , G06K9/62
Abstract: 本发明公开了一种基于跨模态提示学习的视频问答方法与系统,本发明方法包括:针对示教视频提取视觉特征和文本特征,利用上下文查询注意力得到对应的跨模态输出特征;根据输出特征,利用视频答案区间高亮模块获取视频答案区间高亮特征并作为预训练的语言模型的视觉提示,通过预训练的语言模型基于文本问题、字幕以及视觉提示预测字幕跨度。本发明以高效准确从给定的未剪辑的示教视频中找到问题匹配的视频答案时间段区间,以视频答案时间段区间从语义上回答指定的文本问题为目标,利用视频答案区间高亮模块增强了预训练语言模型中的文本跨度定位,能显著提高视频分类和视频问答的准确率和效率,且适用于各类视频的分类与视频问答任务。
-
公开(公告)号:CN114996431A
公开(公告)日:2022-09-02
申请号:CN202210916763.5
申请日:2022-08-01
Applicant: 湖南大学
IPC: G06F16/332 , G06N3/04 , G06F16/33 , G06F40/279 , G10L15/26 , G10L15/02 , G10L15/183
Abstract: 本发明公开了一种基于混合注意力的人机对话生成方法、系统及介质,本发明方法包括将交互对象的说话内容提取文本特征序列Fw,并将文本特征序列Fw基于位置编码矩阵PE进行位置编码,得到引入位置信息的文本特征序列Fwp;分别通过全局自注意力机制、稀疏注意力机制提取特征再进行线性融合得到特征序列Fen;最后提取回复文本序列Y的注意力向量Ac并与Fen进行点乘得到表示向量hf;通过前馈神经网络对表示向量hf获取面向回复文本序列Y的概率表示P(Y)并定向搜索最优的回复文本并输出。本发明能够提高人机对话生成的质量,有效的表示说话人内容,可广泛应用于人机对话生成。
-
-
-
-
-