-
公开(公告)号:CN116758450B
公开(公告)日:2024-02-27
申请号:CN202310547607.0
申请日:2023-05-15
Applicant: 哈尔滨理工大学
IPC: G06V20/40 , G06V10/82 , G06V10/74 , G06F16/332 , G06F18/22 , G06F18/213 , G06N3/0464 , G06N3/042 , G06N3/048 , G06N3/0442 , G06N3/08
Abstract: 本发明提出一种基于时空图和相似图的协同注意力推理的视频问答方法,属于视频问答技术领域。包括:提取输入视频的帧级全局特征和目标级局部特征。提取输入问题语句的特征并对其进行编码,获取问题语句的上下文信息。根据提取的局部特征,构建目标之间的相似图和时空图,获得目标时间的相似关系和时空关系,并进行关系推理。依据视觉特征和问题特征,得到具有问题导向和具有视频导向的特征信息,并同时建立长期依赖。依据提取的答案特征,进行预测答案。解决了现有技术无法同时关注到视觉和文本内容的内在联系的问题,根据文本信息在视频
-
公开(公告)号:CN116385937A
公开(公告)日:2023-07-04
申请号:CN202310371771.0
申请日:2023-04-07
Applicant: 哈尔滨理工大学
IPC: G06V20/40 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/0442 , G06N3/08 , G06F40/211 , G06F40/289
Abstract: 本发明公开了一种基于多粒度的跨模态交互框架解决视频问答的方法及系统,涉及计算机视觉和自然语言处理领域。本发明的技术要点包括:对视频提取帧级与目标级特征,并提取描述文本的语义词性和问题的词嵌入向量,利用对视频和描述文本的图神经网络获取多粒度的视频和文本表示,利用图神经网络集成不同粒度的表示,并利用注意力来捕获同模态的视频、同模态的文本,以及跨模态视频和文本之间的交互信息,生成基于问题的视觉表示和基于视频的文本表示,进而自适应地融合基于问题的视觉表示和基于视频的文本表示,生成答案。本发明通过整合不同表示形式提高了回答的准确性。本发明在视频问答中取得的效果相比于传统方法更好。
-
公开(公告)号:CN109522956B
公开(公告)日:2022-09-30
申请号:CN201811366758.1
申请日:2018-11-16
Applicant: 哈尔滨理工大学
IPC: G06V10/764 , G06V10/774
Abstract: 一种低秩判别特征子空间学习方法属于图像分类领域;解决了忽略对隐藏在样本中的低维子空间结构信息的技术问题;包括定义判别特征学习式的目标函数;采用类标签作为一种监督信息,目标函数重新拟定;将目标函数中的特征子空间施加正交约束;将一个图像数据集分成测试集和训练集;通过训练集,求解出目标函数值最小化时各个变量的值;目标函数求解后得到一个特征子空间;通过所述特征子空间投影测试集,得到数据集里所有类别图像的所有特征,最终通过分类器得到所述数据集的识别率;本发明用低秩表示系数作为约束来构造用于特征学习的判别项,其能够将子空间结构相似性约束引入到适用于图像识别和分类任务的判别特征学习模型中,促进模型自适应性和鲁棒性。
-
公开(公告)号:CN112580701B
公开(公告)日:2022-07-12
申请号:CN202011428994.9
申请日:2020-12-09
Applicant: 哈尔滨理工大学
Abstract: 一种基于分类变换扰动机制的均值估计方法及装置,属于信息安全技术领域,该机制采用了数据变换扰动的方式,将数值型数据划分变换范围并进行分段,根据分段将其变换为一维二元分类数据;对转换后的数据使用随机响应机制进行扰动,再根据扰动后的数据标识的数值段从中随机均匀抽取数值作为扰动值;与其他方法相比,该方法在满足本地差分隐私机制的同时,在数据分析任务如均值估计中能获得较高的数据效用性,得到的模型的分类准确性要更高,性能要更好。
-
公开(公告)号:CN113609330B
公开(公告)日:2022-06-14
申请号:CN202110907635.X
申请日:2021-08-09
Applicant: 哈尔滨理工大学
IPC: G06F16/732 , G06F16/783 , G06N3/04 , G06N3/08
Abstract: 本发明提出一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质,属于计算机视觉和自然语言处理交叉领域。首先,获得问题语句的词嵌入表示;其次,获得问题导向的视频文本级别特征表示;再其次,获得问题导向的具有空间注意的视频帧级别特征表示;再其次,获得最终的问题导向的视频帧级别特征表示;再其次,获得问题导向的视频片段级别特征表示;最后,得到具有问题导向的视频特征表示,并生成答案。解决了现有技术中存在的答案推理准确性低的技术问题。本发明通过提取视频的细粒度区域特征,可以更好地理解视频信息,增加了视频问答问题的准确度,缩小了视频和问题之间的模态差异。
-
公开(公告)号:CN113610183B
公开(公告)日:2022-06-03
申请号:CN202110954054.1
申请日:2021-08-19
Applicant: 哈尔滨理工大学
IPC: G06V10/774 , G06K9/62
Abstract: 本发明提出了一种基于三元组多样范例集和梯度正则化的增量学习方法、计算机及存储介质,属于人工智能领域。首先,得到的预测样本特征和真实标签,并输入损失函数进行反向传播更新模型参数;其次,计算批次数据的原型表示;再其次,计算每个类别应保存的正例样本的数量和反例样本的数量;再其次,更新已有类别的范例集应存储的范例的数量;再其次,对正例集合范例集中的样本进行打分,根据样本的分数构建当前类别范例集;再其次,随机取样获得重演样本集,然后对重演样本集和批次数据中的样本进行前向传播;再其次,计算三种损失函数的梯度;最后,对三种不同梯度进行正则化,得到最终的梯度值进行反向传播更新。本发明解决了灾难性遗忘的问题。
-
公开(公告)号:CN113592007B
公开(公告)日:2022-05-31
申请号:CN202110896069.7
申请日:2021-08-05
Applicant: 哈尔滨理工大学
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质,属于图片检测技术领域。本发明包括首先利用图片数据增强方式对训练数据集进行数据增强,然后利用数据增强后的图片数据集训练基于图片全局特征进行识别的教师神经网络T1,利用数据增强后的图片数据集训练基于图片语义特征进行识别的教师神经网络T2,然后利用教师神经网络T1、T2,结合类别预测损失函数,特征注意力蒸馏损失函数,语义蒸馏损失函数训练学生神经网络,最后将待预测的图片输入到已训练完毕的学生神经网络中进行不良图片识别。本发明在不良图片识别问题中相比于传统方法准确率更高,识别速度更快。
-
公开(公告)号:CN113610183A
公开(公告)日:2021-11-05
申请号:CN202110954054.1
申请日:2021-08-19
Applicant: 哈尔滨理工大学
IPC: G06K9/62
Abstract: 本发明提出了一种基于三元组多样范例集和梯度正则化的增量学习方法、计算机及存储介质,属于人工智能领域。首先,得到的预测样本特征和真实标签,并输入损失函数进行反向传播更新模型参数;其次,计算批次数据的原型表示;再其次,计算每个类别应保存的正例样本的数量和反例样本的数量;再其次,更新已有类别的范例集应存储的范例的数量;再其次,对正例集合范例集中的样本进行打分,根据样本的分数构建当前类别范例集;再其次,随机取样获得重演样本集,然后对重演样本集和批次数据中的样本进行前向传播;再其次,计算三种损失函数的梯度;最后,对三种不同梯度进行正则化,得到最终的梯度值进行反向传播更新。本发明解决了灾难性遗忘的问题。
-
公开(公告)号:CN113592008A
公开(公告)日:2021-11-02
申请号:CN202110896070.X
申请日:2021-08-05
Applicant: 哈尔滨理工大学
Abstract: 本申请公开了一种基于自编码器的图神经网络机制解决小样本图像分类的系统、方法、设备及存储介质,属于计算机视觉技术领域。解决了现有技术中无法同时利用样本类内与类间分布情况的不足。本申请1)针对于基类数据集,依据重构损失最小化准则,训练一个自编码器,学习类内样本间的差异信息。2)将支持集的样本输入到自编码器中,为支持集生成更多的重构样本。3)将支持集的样本、重构样本和查询集样本一起训练出图神经网络,用来对查询集样本节点进行边标签的预测,进而预测节点所属的类别。本申请提高了小样本情况下模型的性能和泛化能力。
-
公开(公告)号:CN113408614A
公开(公告)日:2021-09-17
申请号:CN202110676387.2
申请日:2021-06-18
Applicant: 哈尔滨理工大学
Abstract: 本发明提出了一种多核低冗余表示学习的多视图子空间聚类方法,属于多视图聚类技术领域。该方法包括:通过将最小二乘回归算法扩展到遵循多视图子空间聚类算法的框架中,得到关于多视图的最小二乘回归算法的目标函数;通过用低冗余数据表示来替代原始数据作为目标函数的输入,解决了原始数据包含大量冗余信息会对聚类效果产生影响的问题;通过构建3阶张量,以探索不同视图之间的高阶相关性,同时还保留了不同视图之间的差异性。本发明的上述技术克服了现有技术的不足。
-
-
-
-
-
-
-
-
-