-
公开(公告)号:CN116758450A
公开(公告)日:2023-09-15
申请号:CN202310547607.0
申请日:2023-05-15
Applicant: 哈尔滨理工大学
IPC: G06V20/40 , G06V10/82 , G06V10/74 , G06F16/332 , G06F18/22 , G06F18/213 , G06N3/0464 , G06N3/042 , G06N3/048 , G06N3/0442 , G06N3/08
Abstract: 本发明提出一种基于时空图和相似图的协同注意力推理的视频问答方法,属于视频问答技术领域。包括:提取输入视频的帧级全局特征和目标级局部特征。提取输入问题语句的特征并对其进行编码,获取问题语句的上下文信息。根据提取的局部特征,构建目标之间的相似图和时空图,获得目标时间的相似关系和时空关系,并进行关系推理。依据视觉特征和问题特征,得到具有问题导向和具有视频导向的特征信息,并同时建立长期依赖。依据提取的答案特征,进行预测答案。解决了现有技术无法同时关注到视觉和文本内容的内在联系的问题,根据文本信息在视频内容中建立长距离语义依赖,并且能准确建模视频中对象之间产生的交互关系,有效提高视频问答预测的准确性。
-
公开(公告)号:CN113609355B
公开(公告)日:2022-06-03
申请号:CN202110908494.3
申请日:2021-08-09
Applicant: 哈尔滨理工大学
IPC: G06F16/9032 , G06F16/732 , G06F16/783 , G06V10/80 , G06V10/74 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08 , G06N5/04
Abstract: 本发明提出一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质,属于计算机视觉和自然语言处理交叉领域。首先,计算物体空间特征和物体类别特征;其次,提取子视频的视觉运动特征;再其次,将物体空间、物体类别特征和视觉运动特征进行特征融合得到物体联合特征;再其次,对问题进行编码,获得问题特征,再其次,将物体联合特征和问题特征输入注意力模型中得到具有问题意识的联合特征;再其次,获得具有问题意识的物体关系特征;再其次,获得具有时序关系的视频特征;最后,得到融合特征生成答案。本发明解决了现有的视频问答系统不能有效地表示不同模态、同模态之间的关联程度和不能有针对性获取不同物体运动信息的问题。
-
公开(公告)号:CN113592008B
公开(公告)日:2022-05-31
申请号:CN202110896070.X
申请日:2021-08-05
Applicant: 哈尔滨理工大学
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本申请公开了一种基于自编码器的图神经网络机制解决小样本图像分类的系统、方法、设备及存储介质,属于计算机视觉技术领域。解决了现有技术中无法同时利用样本类内与类间分布情况的不足。本申请1)针对于基类数据集,依据重构损失最小化准则,训练一个自编码器,学习类内样本间的差异信息。2)将支持集的样本输入到自编码器中,为支持集生成更多的重构样本。3)将支持集的样本、重构样本和查询集样本一起训练出图神经网络,用来对查询集样本节点进行边标签的预测,进而预测节点所属的类别。本申请提高了小样本情况下模型的性能和泛化能力。
-
公开(公告)号:CN113592007A
公开(公告)日:2021-11-02
申请号:CN202110896069.7
申请日:2021-08-05
Applicant: 哈尔滨理工大学
Abstract: 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质,属于图片检测技术领域。本发明包括首先利用图片数据增强方式对训练数据集进行数据增强,然后利用数据增强后的图片数据集训练基于图片全局特征进行识别的教师神经网络T1,利用数据增强后的图片数据集训练基于图片语义特征进行识别的教师神经网络T2,然后利用教师神经网络T1、T2,结合类别预测损失函数,特征注意力蒸馏损失函数,语义蒸馏损失函数训练学生神经网络,最后将待预测的图片输入到已训练完毕的学生神经网络中进行不良图片识别。本发明在不良图片识别问题中相比于传统方法准确率更高,识别速度更快。
-
公开(公告)号:CN115712760B
公开(公告)日:2023-04-21
申请号:CN202211510437.0
申请日:2022-11-29
Applicant: 哈尔滨理工大学
IPC: G06F16/903 , G06F40/126 , G06F40/30 , G06N3/0464 , G06N3/048 , G06N3/0499 , G06N3/08
Abstract: 本发明公开了一种基于BERT模型和深层等长卷积神经网络的二进制代码摘要生成方法及系统,涉及代码摘要生成技术领域。本发明的技术要点包括:将一段程序经过编译和链接过程生成可执行程序,提取其中的二进制代码序列和二进制函数名序列;对二进制函数名序列进行编码,获得函数名表示向量;将二进制代码序列输入BERT预训练语言模型,获取二进制代码序列全局上下文信息特征;利用多个卷积核对二进制代码序列全局上下文信息特征进行局部语义特征提取;将二进制代码序列全局特征和局部语义特征输入预训练的深层等长卷积神经网络,获取二进制代码序列的表示向量;将函数名表示向量和二进制代码序列的表示向量输入预训练的前馈神经网络,获取二进制代码摘要。
-
公开(公告)号:CN115712760A
公开(公告)日:2023-02-24
申请号:CN202211510437.0
申请日:2022-11-29
Applicant: 哈尔滨理工大学
IPC: G06F16/903 , G06F40/126 , G06F40/30 , G06N3/0464 , G06N3/048 , G06N3/0499 , G06N3/08
Abstract: 本发明公开了一种基于BERT模型和深层等长卷积神经网络的二进制代码摘要生成方法及系统,涉及代码摘要生成技术领域。本发明的技术要点包括:将一段程序经过编译和链接过程生成可执行程序,提取其中的二进制代码序列和二进制函数名序列;对二进制函数名序列进行编码,获得函数名表示向量;将二进制代码序列输入BERT预训练语言模型,获取二进制代码序列全局上下文信息特征;利用多个卷积核对二进制代码序列全局上下文信息特征进行局部语义特征提取;将二进制代码序列全局特征和局部语义特征输入预训练的深层等长卷积神经网络,获取二进制代码序列的表示向量;将函数名表示向量和二进制代码序列的表示向量输入预训练的前馈神经网络,获取二进制代码摘要。
-
公开(公告)号:CN116385937B
公开(公告)日:2024-07-30
申请号:CN202310371771.0
申请日:2023-04-07
Applicant: 哈尔滨理工大学
IPC: G06V20/40 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/0442 , G06N3/08 , G06F40/211 , G06F40/289
Abstract: 本发明公开了一种基于多粒度的跨模态交互框架解决视频问答的方法及系统,涉及计算机视觉和自然语言处理领域。本发明的技术要点包括:对视频提取帧级与目标级特征,并提取描述文本的语义词性和问题的词嵌入向量,利用对视频和描述文本的图神经网络获取多粒度的视频和文本表示,利用图神经网络集成不同粒度的表示,并利用注意力来捕获同模态的视频、同模态的文本,以及跨模态视频和文本之间的交互信息,生成基于问题的视觉表示和基于视频的文本表示,进而自适应地融合基于问题的视觉表示和基于视频的文本表示,生成答案。本发明通过整合不同表示形式提高了回答的准确性。本发明在视频问答中取得的效果相比于传统方法更好。
-
公开(公告)号:CN117077672A
公开(公告)日:2023-11-17
申请号:CN202310822927.2
申请日:2023-07-05
Applicant: 哈尔滨理工大学
IPC: G06F40/295 , G06F40/284 , G06F40/289 , G06N3/045 , G06N3/0442 , G06N3/0464 , G06N3/049 , G06N3/08
Abstract: 本发明提出一种基于词汇增强和TCN‑BILSTM模型的中文命名实体识别方法,属于计算机自然语言技术领域。包括S1、将输入语句中的字符映射成字符表示;S2、将语句中的词汇和分词信息拼接到字符表示上,得到词汇增强后的字符表示;S3、使用预训练的BERT模型,获得输入语句中具有上下文表示的字符表示,将具有上下文表示的字符表示与词汇增强后的字符表示做拼接,得到拼接后的字符表示;S4、对拼接后的字符向量表示做特征提取,得到具有上下文信息和长距离语义信息的特征向量表示;S5、将具有上下文信息和长距离语义信息的特征向量表示输入CRF解码模型预测每个字符的实体标签。解决对于多层次语义信息识别率低的问题。
-
公开(公告)号:CN114936293A
公开(公告)日:2022-08-23
申请号:CN202210646432.4
申请日:2022-06-08
Applicant: 哈尔滨理工大学
IPC: G06F16/36 , G06F16/901 , G06N3/04 , G06N3/08
Abstract: 本发明提出一种基于改进型EmbedKGQA模型的知识图谱问答方法、电子设备及存储介质,属于机器学习技术领域。首先,获得问题集、问题的主题实体、问题的答案集和答案相关的关系集;其次,得到知识图谱中所有实体和关系的嵌入表示;其次,将自然语言问题嵌入到固定的维度;其次,得到增强的问题嵌入表示;其次,将增强的问题嵌入表示、主题实体嵌入表示通过答案评分函数得到所有实体的答案得分和答案候选实体的嵌入表示;最后,将候选实体嵌入表示信息通过关系评分函数,将答案评分函数和关系评分函数的线性组合作为最终的评分函数,选择得分最高的实体作为预测结果。解决EmbedKGQA模型效率低、问答不准确的问题。
-
公开(公告)号:CN113609355A
公开(公告)日:2021-11-05
申请号:CN202110908494.3
申请日:2021-08-09
Applicant: 哈尔滨理工大学
IPC: G06F16/9032 , G06F16/732 , G06F16/783 , G06K9/62 , G06N3/04 , G06N3/08 , G06N5/04
Abstract: 本发明提出一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质,属于计算机视觉和自然语言处理交叉领域。首先,计算物体空间特征和物体类别特征;其次,提取子视频的视觉运动特征;再其次,将物体空间、物体类别特征和视觉运动特征进行特征融合得到物体联合特征;再其次,对问题进行编码,获得问题特征,再其次,将物体联合特征和问题特征输入注意力模型中得到具有问题意识的联合特征;再其次,获得具有问题意识的物体关系特征;再其次,获得具有时序关系的视频特征;最后,得到融合特征生成答案。本发明解决了现有的视频问答系统不能有效地表示不同模态、同模态之间的关联程度和不能有针对性获取不同物体运动信息的问题。
-
-
-
-
-
-
-
-
-