基于视觉文本联合建模的共指消解、词义消歧方法及系统
摘要:
本发明属于多模态联合建模的对话意图处理技术领域。提供了一种基于视觉文本联合建模的共指消解、词义消歧方法及系统,基于文本增强特征和视频增强特征,使用跨注意力特征网络进行特征调整,得到调整后特征,使用分布相似度度量对调整后特征进行协调,对协调后的特征进行共指消解预测,得到输入文本对应的共指消解结果;本发明通过跨模态注意力机制,将文本特征和视觉特征融合,生成准确的联合表示,捕捉文本与视频内容之间的深层语义关系,从而构建了高效的词义消歧模型,克服了现有方法面对用户复杂多变的自然语言查询语句时消歧表现不佳的问题。
0/0