-
公开(公告)号:CN111324758B
公开(公告)日:2022-05-17
申请号:CN202010092633.5
申请日:2020-02-14
Applicant: 北京工业大学
IPC: G06F16/50 , G06V10/774 , G06V10/82 , G06K9/62 , G06N3/04
Abstract: 本发明公开了基于发散‑聚合注意力的图像描述方法,获取MS COCO图像描述数据集并预处理:构建多角度观察模型,实现从MS COCO图像数据I的视觉以及细粒度语义信息的提取,得到图像特征V以及细粒度语义信息S*:构建聚合注意力模型;语言生成模型。本发明将这两种思维方式引入到了模型设计中,提出了发散‑聚合注意力模型,实现了视觉信息和语义信息的交互。图1是发散‑聚合注意力模型的概念图,可以看到通过发散观察和聚合注意力模块,模型产生了更生动准确的描述。
-
公开(公告)号:CN112614561A
公开(公告)日:2021-04-06
申请号:CN202011549376.X
申请日:2020-12-24
Applicant: 北京工业大学
Abstract: 本发明公开了一种基于层级自注意力序列编码的医学报告生成方法,步骤(1)获取脑CT图像以及对应的医学报告数据并预处理;步骤(2)构建特征提取器;步骤(3)构建序列处理器,经过序列处理器之后,得到一个包含各个相邻断层块信息的图像特征编码VNSA以及基于整个病例的三维脑CT图像特征编码VSA;步骤(4)构建解码器;步骤(5)模型训练。深度学习在智能医疗的应用发展迅速,针对肺部的医学报告自动生成技术较为成熟,但针对脑CT的医学报告自动生成的研究与发明空缺。本方法搭建的模型实现了三维脑CT数据的编码,将这种编码与图像描述领域中的语言模型相结合,实现了CT影像的医学报告自动生成。
-
公开(公告)号:CN111144553A
公开(公告)日:2020-05-12
申请号:CN201911384977.7
申请日:2019-12-28
Applicant: 北京工业大学
Abstract: 本发明公开了一种基于时空记忆注意力的图像描述方法,步骤(1)获取MS COCO图像描述数据集并预处理;步骤(2)构建编码器模型,对编码器模型进行预训练,完成MS COCO图像数据I的编码,得到图像特征V;步骤(3)构建解码器,对图像特征V进行解码;步骤(4)模型训练。本方法搭建的模型在原有的注意力模型中采用长短时记忆网络中门控制和记忆。相比较于传统的注意力模型,时空记忆注意力模型中新添加了一个记忆矩阵,用于动态地存储过去时刻注意力特征,并在在输入门、输出门、遗忘门的控制作用下不断自我更新,最终输出时序空间上相关的注意力特征。基于STMA模型,本方法不仅在图像关注的位置上更为准确,图像描述结果更加准确。
-
公开(公告)号:CN111144553B
公开(公告)日:2023-06-23
申请号:CN201911384977.7
申请日:2019-12-28
Applicant: 北京工业大学
IPC: G06N3/0442 , G06N3/0464 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于时空记忆注意力的图像描述方法,步骤(1)获取MS COCO图像描述数据集并预处理;步骤(2)构建编码器模型,对编码器模型进行预训练,完成MS COCO图像数据I的编码,得到图像特征V;步骤(3)构建解码器,对图像特征V进行解码;步骤(4)模型训练。本方法搭建的模型在原有的注意力模型中采用长短时记忆网络中门控制和记忆。相比较于传统的注意力模型,时空记忆注意力模型中新添加了一个记忆矩阵,用于动态地存储过去时刻注意力特征,并在在输入门、输出门、遗忘门的控制作用下不断自我更新,最终输出时序空间上相关的注意力特征。基于STMA模型,本方法不仅在图像关注的位置上更为准确,图像描述结果更加准确。
-
公开(公告)号:CN114220516B
公开(公告)日:2024-12-13
申请号:CN202111548154.0
申请日:2021-12-17
Applicant: 北京工业大学
IPC: G16H15/00 , G06T7/00 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0442
Abstract: 本发明公开了一种基于层级循环神经网络解码的脑CT医学报告生成方法,首先获取脑CT图像以及对应的医学报告数据并预处理;构建特征提取器,完成脑CT图像数据的编码,得到编码特征#imgabs0#以及断层块视觉特征#imgabs1#构建方位关键词预测器,用于提取脑CT图像数据I的方位关键词语义特征Fs;构建层级循环神经网络语言模型,该模型利用#imgabs2#以及Fs进行分层解码,逐句生成医学报告;训练并优化模型;对待预测脑CT进行预处理;利用方位关键词提取待预测脑CT的编码特征及断层块视觉特征;利用方位关键词提取语义特征;语言模型利用编码特征、断层块视觉特征以及语义特征逐句生成所预测的医学报告。
-
公开(公告)号:CN115659991A
公开(公告)日:2023-01-31
申请号:CN202211401246.0
申请日:2022-11-09
Applicant: 北京工业大学
IPC: G06F40/30 , G06F40/216 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于共现关系分层注意力的脑CT医学报告自动生成方法,预处理脑CT数据集并建立词汇表;构建脑CT影像的特征提取器用于提取脑CT影像的视觉特征;构建共现关系语义注意力模块,用于提取脑CT影像中常见医学术语的语义注意力特征,其内部包括词嵌入层及语义注意力机制。构建主题向量引导的视觉注意力模块,该模块中的主题向量融合常见及罕见的医学术语的语义信息,完整表达句子层级的医学术语主题,该医学术语主题则指导视觉注意力机制捕捉重要的病灶区域特征。本方法结合常见医学术语之间的共现关系推测缺失的语义信息,从而提取更加丰富的语义注意力特征,分层协作提升生成的脑CT医学报告的准确性、多样性。
-
公开(公告)号:CN114220516A
公开(公告)日:2022-03-22
申请号:CN202111548154.0
申请日:2021-12-17
Applicant: 北京工业大学
Abstract: 本发明公开了一种基于层级循环神经网络解码的脑CT医学报告生成方法,首先获取脑CT图像以及对应的医学报告数据并预处理;构建特征提取器,完成脑CT图像数据的编码,得到编码特征以及断层块视觉特征构建方位关键词预测器,用于提取脑CT图像数据I的方位关键词语义特征Fs;构建层级循环神经网络语言模型,该模型利用以及Fs进行分层解码,逐句生成医学报告;训练并优化模型;对待预测脑CT进行预处理;利用方位关键词提取待预测脑CT的编码特征及断层块视觉特征;利用方位关键词提取语义特征;语言模型利用编码特征、断层块视觉特征以及语义特征逐句生成所预测的医学报告。
-
公开(公告)号:CN113420834A
公开(公告)日:2021-09-21
申请号:CN202110825814.9
申请日:2021-07-21
Applicant: 北京工业大学
Abstract: 本发明采用的技术方案为一种基于关系约束自注意力的图像描述自动生成方法,涉及自然图像处理,计算机视觉和自然语言处理三个领域,所述方法具有以下特点:1)设计了一种基于视觉语义关系约束的自注意力机制(RCSA),约束自注意力更好的聚焦于与生成描述相关的区域,忽略无关区域,从而提高图像描述生成的准确性。2)RCSA包含两个子模块,RCSA‑E和RCSA‑D分别作用于图像描述模型的编码与解码阶段。RCSA‑E使用视觉关系来使自注意力权重更加稀疏;RCSA‑D将先验语义关系信息嵌入输入高层上下文特征中,增强解码阶段语义表达。3)本发明在离线和在线评测方法上做了充分实验,实验结果展示了所提方法的有效性。
-
公开(公告)号:CN112832318A
公开(公告)日:2021-05-25
申请号:CN202110026452.7
申请日:2021-01-08
Applicant: 北京工业大学
IPC: E02F9/02
Abstract: 本发明公开了一种新的抢险挖掘机组合式下车架的快速连接结构及其装配方法,快速连接结构包括左右行走模块(1)和X形行走架(2),左右行走模块包括履带架和“四轮一带”,以及与其固定连接的连接件(3),X形行走架包括与其固定连接的连接件(4);装配时,利用工字连接件(5)和多功能销轴(6)确定左右行走模块的之间的距离,再将X形行走架吊装垂直落下,使两个连接件水平面贴合配合,紧固竖直螺栓,再将工字连接件拆下,实现挖掘机组合式下车架的快速装配。本发明不需要拆卸履带,可以在受灾现场实现挖掘机下车架的快速装配,同时连接结构能够有效的保护螺栓,避免螺栓被损坏。
-
-
-
-
-
-
-
-