基于视觉文本联合建模的共指消解、词义消歧方法及系统

发明公开

CN118898255A 基于视觉文本联合建模的共指消解、词义消歧方法及系统审中-公开

请登陆查看更多内容

专利标题： 基于视觉文本联合建模的共指消解、词义消歧方法及系统
申请号： CN202411388055.4

申请日： 2024-10-08
公开(公告)号： CN118898255A

公开(公告)日： 2024-11-05
发明人: 聂礼强 , 刘萌 , 关惟俐 , 殷俊 , 胡宇鹏 , 朱树磊 , 尉寅玮 , 张化祥 , 程轩昂
申请人： 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 山东师范大学
申请人地址： 山东省青岛市即墨区滨海路72号; ; ;
专利权人： 山东大学,哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),浙江大华技术股份有限公司,山东师范大学
当前专利权人： 山东大学,哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),浙江大华技术股份有限公司,山东师范大学
当前专利权人地址： 山东省青岛市即墨区滨海路72号; ; ;
代理机构： 济南圣达知识产权代理有限公司
代理商 祖之强
主分类号： G06F40/30
IPC分类号： G06F40/30 ; G06F40/284 ; G06F40/226 ; G06N3/042 ; G06N3/0464 ; G06N3/08 ; G06V20/40 ; G06V10/80

摘要：

本发明属于多模态联合建模的对话意图处理技术领域。提供了一种基于视觉文本联合建模的共指消解、词义消歧方法及系统，基于文本增强特征和视频增强特征，使用跨注意力特征网络进行特征调整，得到调整后特征，使用分布相似度度量对调整后特征进行协调，对协调后的特征进行共指消解预测，得到输入文本对应的共指消解结果；本发明通过跨模态注意力机制，将文本特征和视觉特征融合，生成准确的联合表示，捕捉文本与视频内容之间的深层语义关系，从而构建了高效的词义消歧模型，克服了现有方法面对用户复杂多变的自然语言查询语句时消歧表现不佳的问题。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/30	.语义分析