发明公开
- 专利标题: 基于视觉文本联合建模的共指消解、词义消歧方法及系统
-
申请号: CN202411388055.4申请日: 2024-10-08
-
公开(公告)号: CN118898255A公开(公告)日: 2024-11-05
- 发明人: 聂礼强 , 刘萌 , 关惟俐 , 殷俊 , 胡宇鹏 , 朱树磊 , 尉寅玮 , 张化祥 , 程轩昂
- 申请人: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 山东师范大学
- 申请人地址: 山东省青岛市即墨区滨海路72号; ; ;
- 专利权人: 山东大学,哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),浙江大华技术股份有限公司,山东师范大学
- 当前专利权人: 山东大学,哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),浙江大华技术股份有限公司,山东师范大学
- 当前专利权人地址: 山东省青岛市即墨区滨海路72号; ; ;
- 代理机构: 济南圣达知识产权代理有限公司
- 代理商 祖之强
- 主分类号: G06F40/30
- IPC分类号: G06F40/30 ; G06F40/284 ; G06F40/226 ; G06N3/042 ; G06N3/0464 ; G06N3/08 ; G06V20/40 ; G06V10/80
摘要:
本发明属于多模态联合建模的对话意图处理技术领域。提供了一种基于视觉文本联合建模的共指消解、词义消歧方法及系统,基于文本增强特征和视频增强特征,使用跨注意力特征网络进行特征调整,得到调整后特征,使用分布相似度度量对调整后特征进行协调,对协调后的特征进行共指消解预测,得到输入文本对应的共指消解结果;本发明通过跨模态注意力机制,将文本特征和视觉特征融合,生成准确的联合表示,捕捉文本与视频内容之间的深层语义关系,从而构建了高效的词义消歧模型,克服了现有方法面对用户复杂多变的自然语言查询语句时消歧表现不佳的问题。