-
公开(公告)号:CN118115845A
公开(公告)日:2024-05-31
申请号:CN202410172702.1
申请日:2024-02-07
Applicant: 北京工业大学
Abstract: 本发明公开了一种基于多尺度多头信息聚合的图像描述方法,从多头注意力的角度引入多尺度视觉特征,提升编码器对图像特征进行高层次语义建模时捕获多样性信息的能力。具体来说,我们提出了一种尺度扩展算法来提取高尺度视觉特征,然后对于不同的注意力头引入不同的高尺度视觉特征,以捕获更加丰富的视觉信息。此外,对于编码器的浅层和深层,引入不同层级的高尺度视觉特征,进一步提升编码器的特征表示能力。本方法可以灵活的与现有的基于多头注意力机制的图像描述模型结合,帮助模型提取更加丰富的图像信息,提升图像描述的准确性。
-
公开(公告)号:CN115394397A
公开(公告)日:2022-11-25
申请号:CN202210563429.6
申请日:2022-05-20
Applicant: 北京工业大学
Abstract: 本发明涉及一种基于跨模态对比注意力的医学报告自动生成的方法,具体分为编码和解码两个阶段,编码阶段包含三个子模块:视觉注意力模块VAM、视觉对比注意力模块VCAM和跨模态注意力模块CAM,其中,VAM提取输入图像的视觉特征;另外,通过对比当前图像和过往相似案例图像之间的视觉差异性和相似性:VCAM利用差异性引导注意力模型关注当前图像独特的异常视觉区域;CMAM利用相似性引导注意力模型实现对过往相似案例报告中有效词的跨模态匹配。解码阶段由并行注意力模块PAM组成,并行计算编码阶段得到的编码特征来指导生成医学报告。本发明在自然语言评价指标和临床评价指标上做了充分实验,实验结果展示了所提出方法的有效性。
-
公开(公告)号:CN112832318B
公开(公告)日:2022-04-19
申请号:CN202110026452.7
申请日:2021-01-08
Applicant: 北京工业大学
IPC: E02F9/02
Abstract: 本发明公开了一种新的抢险挖掘机组合式下车架的快速连接结构及其装配方法,快速连接结构包括左右行走模块(1)和X形行走架(2),左右行走模块包括履带架和“四轮一带”,以及与其固定连接的连接件(3),X形行走架包括与其固定连接的连接件(4);装配时,利用工字连接件(5)和多功能销轴(6)确定左右行走模块的之间的距离,再将X形行走架吊装垂直落下,使两个连接件水平面贴合配合,紧固竖直螺栓,再将工字连接件拆下,实现挖掘机组合式下车架的快速装配。本发明不需要拆卸履带,可以在受灾现场实现挖掘机下车架的快速装配,同时连接结构能够有效的保护螺栓,避免螺栓被损坏。
-
公开(公告)号:CN113707278A
公开(公告)日:2021-11-26
申请号:CN202110999764.6
申请日:2021-08-30
Applicant: 北京工业大学
IPC: G16H30/40 , G16H15/00 , G06T5/50 , G06N3/04 , G06K9/62 , G06F40/289 , G06F40/216
Abstract: 本发明涉及一种基于空间编码的脑CT医学报告生成方法,用于解决现有技术无法为脑CT图像生成准确的医学报告的问题。首先,构建数据集并进行预处理,得到序列脑CT图像特征和多尺度超像素特征两种特征;其次,通过编码模型MSSE对序列脑CT图像特征和多尺度超像素特征进行特征编码,从而得到包含脑CT空间信息的序列图像特征。然后采用解码模型SALD对包含脑CT空间信息的序列图像特征进行解码从而生成脑CT医学报告,SALD解码模型包含空间注意力和LSTM两个部分,空间注意力用于提取重要的序列图像特征,最终得到整个CT影像的图像特征;LSTM将整个CT影像的图像特征作为输入,最终生成脑CT医学报告。
-
公开(公告)号:CN112633416A
公开(公告)日:2021-04-09
申请号:CN202110058684.0
申请日:2021-01-16
Applicant: 北京工业大学
Abstract: 一种融合多尺度超像素的脑CT图像分类方法,属于医学图像研究领域。所述方法具有以下特点:1)利用多尺度超像素与脑CT图像融合,去除了图像冗余信息,降低了病灶和周围脑组织像素的灰度相似性。2)设计了一种基于区域和边界的多尺度超像素编码器,有效的提取多尺度超像素中包含的病灶低层次信息。3)设计了一种融合多尺度超像素特征融合模型,综合利用了残差神经网络提取的高层次特征和多尺度超像素的低层次特征,实现对脑CT的分类。4)相比传统深度学习算法,本发明所述方法可以有效利用多尺度超像素中包含的病灶信息,从而更准确地对脑CT图像中存在的疾病进行分类,且该方法合理可靠,可为脑CT图像的分类提供有力的帮助。
-
公开(公告)号:CN111324758A
公开(公告)日:2020-06-23
申请号:CN202010092633.5
申请日:2020-02-14
Applicant: 北京工业大学
Abstract: 本发明公开了基于发散-聚合注意力的图像描述方法,获取MS COCO图像描述数据集并预处理:构建多角度观察模型,实现从MS COCO图像数据I的视觉以及细粒度语义信息的提取,得到图像特征V以及细粒度语义信息S*:构建聚合注意力模型;语言生成模型。本发明将这两种思维方式引入到了模型设计中,提出了发散-聚合注意力模型,实现了视觉信息和语义信息的交互。图1是发散-聚合注意力模型的概念图,可以看到通过发散观察和聚合注意力模块,模型产生了更生动准确的描述。
-
公开(公告)号:CN113313199A
公开(公告)日:2021-08-27
申请号:CN202110685415.7
申请日:2021-06-21
Applicant: 北京工业大学
Abstract: 本发明提出一种基于弱监督注意力的脑CT医学报告自动生成的方法,涉及医学图像,计算机视觉和自然语言处理三个领域,设计了一种弱监督注意力机制WGAM明确地引导注意模型聚焦于病灶区域,从而提高医学报告生成的准确性。WGAM是一个层级结构,包括空间注意力和序列注意力两种注意力机制,其中空间注意力被梯度加权类激活映射算法弱监督以获得更好的注意力效果。设计了关键词驱动的交互循环网络KIRN作为语言生成模块生成脑CT医学报告,通过包含病灶位置信息的关键词信息激活语言生成模块的隐藏层状态,通过LSTMword和LSTMsen的动态交互提升生成脑CT影像报告生成的准确性。本发明首此探索脑CT医学报告自动生成的工作,并取得了有效性。
-
公开(公告)号:CN113313199B
公开(公告)日:2024-11-12
申请号:CN202110685415.7
申请日:2021-06-21
Applicant: 北京工业大学
IPC: G16H15/00 , G16H30/20 , G16H50/70 , G06N3/0442 , G06N3/045 , G06N3/0895 , G06N3/0464 , G06F18/241 , G06V10/764
Abstract: 本发明提出一种基于弱监督注意力的脑CT医学报告自动生成的方法,涉及医学图像,计算机视觉和自然语言处理三个领域,设计了一种弱监督注意力机制WGAM明确地引导注意模型聚焦于病灶区域,从而提高医学报告生成的准确性。WGAM是一个层级结构,包括空间注意力和序列注意力两种注意力机制,其中空间注意力被梯度加权类激活映射算法弱监督以获得更好的注意力效果。设计了关键词驱动的交互循环网络KIRN作为语言生成模块生成脑CT医学报告,通过包含病灶位置信息的关键词信息激活语言生成模块的隐藏层状态,通过LSTMword和LSTMsen的动态交互提升生成脑CT影像报告生成的准确性。本发明首此探索脑CT医学报告自动生成的工作,并取得了有效性。
-
公开(公告)号:CN113420834B
公开(公告)日:2024-05-28
申请号:CN202110825814.9
申请日:2021-07-21
Applicant: 北京工业大学
IPC: G06V10/774 , G06F40/30 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明采用的技术方案为一种基于关系约束自注意力的图像描述自动生成方法,涉及自然图像处理,计算机视觉和自然语言处理三个领域,所述方法具有以下特点:1)设计了一种基于视觉语义关系约束的自注意力机制(RCSA),约束自注意力更好的聚焦于与生成描述相关的区域,忽略无关区域,从而提高图像描述生成的准确性。2)RCSA包含两个子模块,RCSA‑E和RCSA‑D分别作用于图像描述模型的编码与解码阶段。RCSA‑E使用视觉关系来使自注意力权重更加稀疏;RCSA‑D将先验语义关系信息嵌入输入高层上下文特征中,增强解码阶段语义表达。3)本发明在离线和在线评测方法上做了充分实验,实验结果展示了所提方法的有效性。
-
公开(公告)号:CN113707278B
公开(公告)日:2023-11-03
申请号:CN202110999764.6
申请日:2021-08-30
Applicant: 北京工业大学
IPC: G16H30/40 , G16H15/00 , G06T5/50 , G06V10/774 , G06N3/044 , G06F40/289 , G06F40/216
Abstract: 本发明涉及一种基于空间编码的脑CT医学报告生成方法,用于解决现有技术无法为脑CT图像生成准确的医学报告的问题。首先,构建数据集并进行预处理,得到序列脑CT图像特征和多尺度超像素特征两种特征;其次,通过编码模型MSSE对序列脑CT图像特征和多尺度超像素特征进行特征编码,从而得到包含脑CT空间信息的序列图像特征。然后采用解码模型SALD对包含脑CT空间信息的序列图像特征进行解码从而生成脑CT医学报告,SALD解码模型包含空间注意力和LSTM两个部分,空间注意力用于提取重要的序列图像特征,最终得到整个CT影像的图像特征;LSTM将整个CT影像的图像特征作为输入,最终生成脑CT医学报告。
-
-
-
-
-
-
-
-
-