一种基于实体跨度定位视觉区域的多模态命名实体识别方法及系统

    公开(公告)号:CN116822515B

    公开(公告)日:2024-07-09

    申请号:CN202310743423.1

    申请日:2023-06-21

    Abstract: 本发明公开了一种基于实体跨度定位视觉区域的多模态命名实体识别方法及系统,涉及计算机视觉和自然语言处理技术领域,以克服现有的获取局部视觉信息方法的缺陷。本发明的技术要点包括:设计实体跨度定位视觉区域模块,以根据文本特征和图片特征,输出与输入文本中所有实体最相关的视觉区域特征;设计多模态交互模块,以根据文本特征获取的文本隐藏表示以及视觉区域特征,进行文本特征和视觉区域特征之间的跨模态语义交互,输出多模态融合特征;设计条件随机场解码模块,以根据输入的多模态融合特征,输出文本中每个单词的实体标签。本发明同时利用全局和局部两个角度的图片信息来提升性能,减轻了不相关物体图像对多模态命名实体识别的负面影响。

    一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质

    公开(公告)号:CN113609330B

    公开(公告)日:2022-06-14

    申请号:CN202110907635.X

    申请日:2021-08-09

    Abstract: 本发明提出一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质,属于计算机视觉和自然语言处理交叉领域。首先,获得问题语句的词嵌入表示;其次,获得问题导向的视频文本级别特征表示;再其次,获得问题导向的具有空间注意的视频帧级别特征表示;再其次,获得最终的问题导向的视频帧级别特征表示;再其次,获得问题导向的视频片段级别特征表示;最后,得到具有问题导向的视频特征表示,并生成答案。解决了现有技术中存在的答案推理准确性低的技术问题。本发明通过提取视频的细粒度区域特征,可以更好地理解视频信息,增加了视频问答问题的准确度,缩小了视频和问题之间的模态差异。

    基于类型引导交互的多模态命名实体识别方法和系统、电子设备及计算机可读存储介质

    公开(公告)号:CN119721039A

    公开(公告)日:2025-03-28

    申请号:CN202411839124.9

    申请日:2024-12-13

    Abstract: 本发明公开了基于类型引导交互的多模态命名实体识别方法和系统、电子设备及计算机可读存储介质,属于多模态命名实体识别技术领域。解决了现有技术中传统的多模态命名实体识别方法因模型难以捕获模态间语义的对应关系导致的识别结果不准确的问题;本发明通过图文对层级提取模块和实体类别提取模块,提取特征;通过类别引导的注意力模块,生成实体类别引导的文本和视觉表示以及增强的实体类别表示;通过基于注意力机制的跨模态层级交互模块,生成对实体类别敏感性强的多模态表示;通过带有类型引导单模态辅助任务的联合学习模块,生成图像文本对的预测序列。本发明有效提升了对图像和文本的识别精度,可以应用于识别和提取命名实体。

    基于多模态渐进式注意力模型解决视频问答任务的方法

    公开(公告)号:CN113688296B

    公开(公告)日:2022-05-31

    申请号:CN202110915934.8

    申请日:2021-08-10

    Abstract: 本发明的实施方式提供了一种基于多模态渐进式注意力模型解决视频问答任务的方法。该方法包括:一、针对视频问答任务中的多种模态信息,分别提取多种模态特征;二、利用问题对提取到的多种模态特征进行初步关注并计算相应的权重得分,再利用问题对重要模态特征进行迭代关注以定位到与问题最相关的模态特征;三、利用多模态融合算法实现特征的跨模态融合,再利用问题对视频的多模态融合表示进行关注,找出与问题相关的重要视频特征;四、将模型的部分有效输出结果进行融合,用于答案生成。相比现有的视频问答解决方案,本发明能够更精准地定位到与问题相关的视频帧或视频画面区域。本发明在视频问答任务中取得的效果相比于传统的方法更好。

    一种缩短时间戳网络解决多事件视频问答系统、方法、计算机及存储介质

    公开(公告)号:CN113590879B

    公开(公告)日:2022-05-31

    申请号:CN202110896068.2

    申请日:2021-08-05

    Abstract: 本发明提出一种缩短时间戳网络解决多事件视频问答系统、方法、计算机及存储介质,属于计算机视觉和自然语言处理交叉领域。将视频和字幕提取为多级的事件嵌入,并提取问题和候选答案的特征。利用问题导向的注意力获取不同事件的注意力权重,并利用模糊理论中的截距阵提取视频中的关键事件嵌入。利用问题和答案分别关注不同模态的关键事件嵌入,生成具有问题导向和具有答案导向的上下文信息。自适应地融合问题导向和答案导向的上下文,生成答案。相比于一般视频问答方案,本发明从视频中提取多个事件的多模态嵌入,并利用模糊数学中的截距阵等理论筛选出关键事件,通过去除冗余信息提高了回答的准确性。本发明在视频问答中的效果比于传统方法更好。

    基于多模态渐进式注意力模型解决视频问答任务的方法

    公开(公告)号:CN113688296A

    公开(公告)日:2021-11-23

    申请号:CN202110915934.8

    申请日:2021-08-10

    Abstract: 本发明的实施方式提供了一种基于多模态渐进式注意力模型解决视频问答任务的方法。该方法包括:一、针对视频问答任务中的多种模态信息,分别提取多种模态特征;二、利用问题对提取到的多种模态特征进行初步关注并计算相应的权重得分,再利用问题对重要模态特征进行迭代关注以定位到与问题最相关的模态特征;三、利用多模态融合算法实现特征的跨模态融合,再利用问题对视频的多模态融合表示进行关注,找出与问题相关的重要视频特征;四、将模型的部分有效输出结果进行融合,用于答案生成。相比现有的视频问答解决方案,本发明能够更精准地定位到与问题相关的视频帧或视频画面区域。本发明在视频问答任务中取得的效果相比于传统的方法更好。

    一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质

    公开(公告)号:CN113609330A

    公开(公告)日:2021-11-05

    申请号:CN202110907635.X

    申请日:2021-08-09

    Abstract: 本发明提出一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质,属于计算机视觉和自然语言处理交叉领域。首先,获得问题语句的词嵌入表示;其次,获得问题导向的视频文本级别特征表示;再其次,获得问题导向的具有空间注意的视频帧级别特征表示;再其次,获得最终的问题导向的视频帧级别特征表示;再其次,获得问题导向的视频片段级别特征表示;最后,得到具有问题导向的视频特征表示,并生成答案。解决了现有技术中存在的答案推理准确性低的技术问题。本发明通过提取视频的细粒度区域特征,可以更好地理解视频信息,增加了视频问答问题的准确度,缩小了视频和问题之间的模态差异。

    一种缩短时间戳网络解决多事件视频问答系统、方法、计算机及存储介质

    公开(公告)号:CN113590879A

    公开(公告)日:2021-11-02

    申请号:CN202110896068.2

    申请日:2021-08-05

    Abstract: 本发明提出一种缩短时间戳网络解决多事件视频问答系统、方法、计算机及存储介质,属于计算机视觉和自然语言处理交叉领域。将视频和字幕提取为多级的事件嵌入,并提取问题和候选答案的特征。利用问题导向的注意力获取不同事件的注意力权重,并利用模糊理论中的截距阵提取视频中的关键事件嵌入。利用问题和答案分别关注不同模态的关键事件嵌入,生成具有问题导向和具有答案导向的上下文信息。自适应地融合问题导向和答案导向的上下文,生成答案。相比于一般视频问答方案,本发明从视频中提取多个事件的多模态嵌入,并利用模糊数学中的截距阵等理论筛选出关键事件,通过去除冗余信息提高了回答的准确性。本发明在视频问答中的效果比于传统方法更好。

    一种基于实体跨度定位视觉区域的多模态命名实体识别方法及系统

    公开(公告)号:CN116822515A

    公开(公告)日:2023-09-29

    申请号:CN202310743423.1

    申请日:2023-06-21

    Abstract: 本发明公开了一种基于实体跨度定位视觉区域的多模态命名实体识别方法及系统,涉及计算机视觉和自然语言处理技术领域,以克服现有的获取局部视觉信息方法的缺陷。本发明的技术要点包括:设计实体跨度定位视觉区域模块,以根据文本特征和图片特征,输出与输入文本中所有实体最相关的视觉区域特征;设计多模态交互模块,以根据文本特征获取的文本隐藏表示以及视觉区域特征,进行文本特征和视觉区域特征之间的跨模态语义交互,输出多模态融合特征;设计条件随机场解码模块,以根据输入的多模态融合特征,输出文本中每个单词的实体标签。本发明同时利用全局和局部两个角度的图片信息来提升性能,减轻了不相关物体图像对多模态命名实体识别的负面影响。

Patent Agency Ranking