- 专利标题: 一种汉藏语多模态的图文处理方法及处理系统
-
申请号: CN202411201040.2申请日: 2024-08-29
-
公开(公告)号: CN118709147B公开(公告)日: 2024-11-12
- 发明人: 莫倩 , 张传文 , 于满泉 , 蔡锦森 , 樊营 , 朱若曦 , 强巴玉珍 , 邢昊
- 申请人: 北京网智天元大数据科技有限公司 , 网智天元科技集团股份有限公司
- 申请人地址: 北京市西城区车公庄大街4号3号楼5层519室;
- 专利权人: 北京网智天元大数据科技有限公司,网智天元科技集团股份有限公司
- 当前专利权人: 北京网智天元大数据科技有限公司,网智天元科技集团股份有限公司
- 当前专利权人地址: 北京市西城区车公庄大街4号3号楼5层519室;
- 主分类号: G06F18/25
- IPC分类号: G06F18/25 ; G06F18/213 ; G06F18/21 ; G06F40/284 ; G06F40/30 ; G06V30/18 ; G06V30/186 ; G06V30/19 ; G06V30/28
摘要:
本申请提供了一种汉藏语多模态的图文处理方法及处理系统,通过提取汉藏语图文信息中汉藏语图像模态的图像特征和汉藏语文本模态的文本特征以确定第一汉藏语图文交互特征信息,根据第一汉藏语图文交互特征信息确定第一交互特征量;将汉藏语图像模态的图像切分重组得到汉藏语图像副本,根据汉藏语图像副本的图像副本特征和文本特征确定第二汉藏语图文交互特征信息,根据第二汉藏语图文交互特征信息确定第二交互特征量;基于第一交互特征量和第二交互特征量输出所述汉藏语图文交互的交互结果。上述方案基于第一交互特征量和第二交互特征量输出交互结果,可实现汉藏语图文跨模态交互的语义关联,从而提高汉藏语图文跨模态交互处理结果的真实性。
公开/授权文献
- CN118709147A 一种汉藏语多模态的图文处理方法及处理系统 公开/授权日:2024-09-27