一种基于外部三元组和抽象关系的图像描述生成方法

    公开(公告)号:CN114332519A

    公开(公告)日:2022-04-12

    申请号:CN202111638065.5

    申请日:2021-12-29

    Abstract: 本发明公开了一种基于外部三元组和抽象关系的图像描述生成方法。本发明首先提取图像描述文本中的三元组,构建外部关系库并对三元组进行特征编码。将文本相似度高于阈值的三元组聚类为一类。同时模型对图像进行目标检测得得到目标视觉特征集合与目标类别集合;根据文本相似度在外部关系库中查询目标与目标类别相似的三元组。模型利用目标视觉特征对图像的目标、属性、关系分别进行预测,生成场景图;并利用卷积神经网络融合视觉特征与文本特征,对目标、属性、关系进行特征编码。最后融合场景图目标、属性、关系编码特征与相似关系和抽象关系的编码特征,输入到双层LSTM序列生成模型中得到最终的图像描述。本发明使模型生成描述的表述更加丰富。

    一种基于视觉嵌入和条件归一化的图像描述方法

    公开(公告)号:CN113139378B

    公开(公告)日:2022-02-18

    申请号:CN202110292545.4

    申请日:2021-03-18

    Abstract: 本发明公开了一种基于视觉嵌入和条件归一化的图像描述方法。本发明提出了一种基于transformer模型的网络,被称为V‑CLTM。在transformer模型的输入端,使用关键词嵌入模块(KEM)提取图像中的目标类别作为关键词,结合文本序列作为输入序列;使用视觉嵌入模块(VEM)用来提取图像特征,并将特征编码成transformer的归一化层能接受维度作为条件输入;同时,本发明提出的条件归一化的LN层是一种通过视觉嵌入来调节模型进行特征选择的有效机制,将条件归一化LN应用于transformer上。结果表明,这种方法具有更好的鲁棒性和自适应能力。

    一种基于特征增强的隧道裂缝快速检测方法

    公开(公告)号:CN112926669A

    公开(公告)日:2021-06-08

    申请号:CN202110259286.5

    申请日:2021-03-09

    Abstract: 本发明公开了一种基于特征增强的隧道裂缝快速检测方法。本发明步骤:(1)使用特征提取模块、特征融合模块和注意力机制模块,构建初始卷积神经网络LFDNet;(2)在MSCOCO数据集上对初始卷积神经网络LFDNet进行预训练得到基础检测模型;(3)收集多种场景下的隧道裂缝图片,标注所有收集的裂缝图片中的裂缝,从而形成一个专门的隧道裂缝数据集;使用隧道裂缝数据集对基础检测模型进行训练得到最终的裂缝检测网络LFDNet;(4)将测试裂缝图片输入最终的裂缝检测网络LFDNet,检测出该裂缝图片中是否存在裂缝以及裂缝的位置信息。本发明能够较为快速、准确的检测出隧道内的裂缝,可用性强。

    一种基于多尺度密度图融合空洞卷积的人群计数方法

    公开(公告)号:CN111507183B

    公开(公告)日:2021-02-02

    申请号:CN202010167699.6

    申请日:2020-03-11

    Abstract: 本发明公开了一种基于多尺度密度图融合空洞卷积的人群计数方法。本发明步骤如下:获取人群图像数据集,并且进行预处理;建立基于多尺度密度图融合空洞卷积的人群计数网络;将预处理之后的人群图像输入该人群计数网络中提取特征数据,输出对应图像的低分辨率密度图;将低分辨率密度图融合空洞卷积网络,输出对应图像的高分辨率密度图;对人群计数网络输出的高分辨率密度图进行积分,得到对应人群图像中的人群总数;将最后输出的高分辨率密度图与人工标注的真实密度图进行损失计算,不断迭代更新人群计数网络;将测试图片输入最终确认的人群计数网络,生成人群分布密度图并且进行人群计数。本发明具有很好的自适应能力和很高的预测精度。

    一种基于语义匹配的多轮对话口语理解方法

    公开(公告)号:CN111353029B

    公开(公告)日:2020-09-22

    申请号:CN202010109598.3

    申请日:2020-02-22

    Abstract: 本发明公开了一种基于语义匹配的多轮对话口语理解方法。本发明利用基于词级别的attention卷积神经网络和树状循环神经网络联合提取语句语义信息,并通过语义匹配对历史语句进行合理的权重值分配,结合上述产生的历史语句语义表示和对应的权重值,输入对应角色双向LSTM模型得到角色历史影响向量,结合2个角色历史影响向量得到最终历史语义影响向量,结合该向量对当前语句做意图检测,并通过损失函数优化模型参数结构。这种方法具有更好的鲁棒性和自适应能力。其中具体发明的基于语义匹配的多轮对话口语理解模型训练流程图如图2。

    一种基于条件嵌入预训练语言模型的图像标题生成方法

    公开(公告)号:CN113139575B

    公开(公告)日:2022-03-01

    申请号:CN202110292541.6

    申请日:2021-03-18

    Abstract: 本发明公开了一种基于条件嵌入预训练语言模型的图像标题生成方法。本发明提出了一种基于预训练语言模型的网络,被称为CE‑UNILM。在预训练语言模型UNILM的输入端,构建KEN,KEN使用目标检测的方法对图像进行目标检测,并将结果作为关键文本信息,通过关键词嵌入的方式进行输入。通过构建VEN对图像特征进行提取,并将图像进行编码,通过条件嵌入的方式进行输入。同时,本发明提出的CELN,CELN是一种通过视觉嵌入来调节预训练语言模型进行特征选择的有效机制,将CELN应用于统一预训练语言模型中的transformer上。结果表明,这种方法具有更好的鲁棒性和自适应能力。

    一种基于视觉嵌入和条件归一化的图像描述方法

    公开(公告)号:CN113139378A

    公开(公告)日:2021-07-20

    申请号:CN202110292545.4

    申请日:2021-03-18

    Abstract: 本发明公开了一种基于视觉嵌入和条件归一化的图像描述方法。本发明提出了一种基于transformer模型的网络,被称为V‑CLTM。在transformer模型的输入端,使用关键词嵌入模块(KEM)提取图像中的目标类别作为关键词,结合文本序列作为输入序列;使用视觉嵌入模块(VEM)用来提取图像特征,并将特征编码成transformer的归一化层能接受维度作为条件输入;同时,本发明提出的条件归一化的LN层是一种通过视觉嵌入来调节模型进行特征选择的有效机制,将条件归一化LN应用于transformer上。结果表明,这种方法具有更好的鲁棒性和自适应能力。

    基于并联空洞卷积和身体结构约束的人体姿态检测方法

    公开(公告)号:CN111507184B

    公开(公告)日:2021-02-02

    申请号:CN202010167700.5

    申请日:2020-03-11

    Abstract: 本发明公开了一种基于并联空洞卷积和身体结构约束的人体姿态检测方法。本发明实现:下载人体姿态数据集,获取训练数据集;根据目标检测算法对训练数据集中的每张图片提取人物个体,获取只包含人物个体的训练图像;根据人体姿态数据集中提供的骨骼点坐标,制作训练图像的骨骼点热图;采用构建关联集合的方法来构建身体结构约束损失模块,采用不同膨胀率的空洞卷积核来构建并联空洞卷积网络。采用Adam优化器训练带有身体结构约束损失模块的并联空洞卷积网络。本发明采用并联空洞卷积网络防止因重复上下采样而造成信息损失,同时还对损失函数进行改进,考虑骨骼点之间的关联性,在复杂环境下能较好的提取特征,获得更好的人体姿态检测效果。

    一种基于堆叠空洞卷积网络的摔倒检测方法

    公开(公告)号:CN111507185B

    公开(公告)日:2020-11-24

    申请号:CN202010168176.3

    申请日:2020-03-11

    Abstract: 本发明公开了一种基于堆叠空洞卷积网络的摔倒检测方法。本发明步骤进行:1、准备摔倒行为训练集;2、通过目标检测算法提取摔倒行为的人物个体,得到新的训练集;3、将训练集的每个人物个体制作关节点热图,并且根据训练集人工定义的摔倒行为的骨骼点分布;4、构建堆叠空洞卷积网络并且训练堆叠空洞卷积网络;5、用训练好的堆叠空洞卷积网络检测连续几帧采集到的图像,得到骨骼点的分布结果;将连续几帧的骨骼点分布与人工定义的摔倒行为骨骼点分布进行相似度计算,若小于阈值,则判定为摔倒行为。本发明能够在复杂的环境下实时检测摔倒行为,具有较好的鲁棒性。

Patent Agency Ranking