-
公开(公告)号:CN114936293B
公开(公告)日:2023-01-31
申请号:CN202210646432.4
申请日:2022-06-08
Applicant: 哈尔滨理工大学
IPC: G06F16/36 , G06F16/901 , G06N3/044 , G06N3/08
Abstract: 本发明提出一种基于改进型EmbedKGQA模型的知识图谱问答方法、电子设备及存储介质,属于机器学习技术领域。首先,获得问题集、问题的主题实体、问题的答案集和答案相关的关系集;其次,得到知识图谱中所有实体和关系的嵌入表示;其次,将自然语言问题嵌入到固定的维度;其次,得到增强的问题嵌入表示;其次,将增强的问题嵌入表示、主题实体嵌入表示通过答案评分函数得到所有实体的答案得分和答案候选实体的嵌入表示;最后,将候选实体嵌入表示信息通过关系评分函数,将答案评分函数和关系评分函数的线性组合作为最终的评分函数,选择得分最高的实体作为预测结果。解决EmbedKGQA模型效率低、问答不准确的问题。
-
公开(公告)号:CN113688296B
公开(公告)日:2022-05-31
申请号:CN202110915934.8
申请日:2021-08-10
Applicant: 哈尔滨理工大学
IPC: G06F16/9032 , G06F16/783 , G06F40/284 , G06N3/04 , G06N3/08 , G10L25/03 , G10L25/27
Abstract: 本发明的实施方式提供了一种基于多模态渐进式注意力模型解决视频问答任务的方法。该方法包括:一、针对视频问答任务中的多种模态信息,分别提取多种模态特征;二、利用问题对提取到的多种模态特征进行初步关注并计算相应的权重得分,再利用问题对重要模态特征进行迭代关注以定位到与问题最相关的模态特征;三、利用多模态融合算法实现特征的跨模态融合,再利用问题对视频的多模态融合表示进行关注,找出与问题相关的重要视频特征;四、将模型的部分有效输出结果进行融合,用于答案生成。相比现有的视频问答解决方案,本发明能够更精准地定位到与问题相关的视频帧或视频画面区域。本发明在视频问答任务中取得的效果相比于传统的方法更好。
-
公开(公告)号:CN113590879B
公开(公告)日:2022-05-31
申请号:CN202110896068.2
申请日:2021-08-05
Applicant: 哈尔滨理工大学
IPC: G06F16/783 , G06F16/732
Abstract: 本发明提出一种缩短时间戳网络解决多事件视频问答系统、方法、计算机及存储介质,属于计算机视觉和自然语言处理交叉领域。将视频和字幕提取为多级的事件嵌入,并提取问题和候选答案的特征。利用问题导向的注意力获取不同事件的注意力权重,并利用模糊理论中的截距阵提取视频中的关键事件嵌入。利用问题和答案分别关注不同模态的关键事件嵌入,生成具有问题导向和具有答案导向的上下文信息。自适应地融合问题导向和答案导向的上下文,生成答案。相比于一般视频问答方案,本发明从视频中提取多个事件的多模态嵌入,并利用模糊数学中的截距阵等理论筛选出关键事件,通过去除冗余信息提高了回答的准确性。本发明在视频问答中的效果比于传统方法更好。
-
公开(公告)号:CN113610151B
公开(公告)日:2022-05-03
申请号:CN202110896795.9
申请日:2021-08-05
Applicant: 哈尔滨理工大学
IPC: G06V10/764 , G06V10/774 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本申请公开了一种基于原型网络的自编码器网络机制解决小样本图像分类的系统、方法、设备及存储介质,属于计算机视觉技术领域。解决了现有技术中无法同时利用样本类内与类间分布情况的不足。本申请1)针对于输入的基类数据集,训练一个基于映射学习的原型网络和编码神经网络,学习出基类的类原型表征,并计算类内样本与类原型表征的距离。2)对于编码后得到的类内样本的相对分布信息,再与类原型表征一起训练出解码神经网络,用来针对于支持集样本与类原型表征的相对分布信息输出一定数量的重构样本。3)将重构样本与支持集样本一起训练一个分类器,以提高小样本图像分类的准确率。本申请提高了分类器的性能和泛化能力。
-
公开(公告)号:CN113688296A
公开(公告)日:2021-11-23
申请号:CN202110915934.8
申请日:2021-08-10
Applicant: 哈尔滨理工大学
IPC: G06F16/9032 , G06F16/783 , G06F40/284 , G06N3/04 , G06N3/08 , G10L25/03 , G10L25/27
Abstract: 本发明的实施方式提供了一种基于多模态渐进式注意力模型解决视频问答任务的方法。该方法包括:一、针对视频问答任务中的多种模态信息,分别提取多种模态特征;二、利用问题对提取到的多种模态特征进行初步关注并计算相应的权重得分,再利用问题对重要模态特征进行迭代关注以定位到与问题最相关的模态特征;三、利用多模态融合算法实现特征的跨模态融合,再利用问题对视频的多模态融合表示进行关注,找出与问题相关的重要视频特征;四、将模型的部分有效输出结果进行融合,用于答案生成。相比现有的视频问答解决方案,本发明能够更精准地定位到与问题相关的视频帧或视频画面区域。本发明在视频问答任务中取得的效果相比于传统的方法更好。
-
公开(公告)号:CN113610151A
公开(公告)日:2021-11-05
申请号:CN202110896795.9
申请日:2021-08-05
Applicant: 哈尔滨理工大学
Abstract: 本申请公开了一种基于原型网络的自编码器网络机制解决小样本图像分类的系统、方法、设备及存储介质,属于计算机视觉技术领域。解决了现有技术中无法同时利用样本类内与类间分布情况的不足。本申请1)针对于输入的基类数据集,训练一个基于映射学习的原型网络和编码神经网络,学习出基类的类原型表征,并计算类内样本与类原型表征的距离。2)对于编码后得到的类内样本的相对分布信息,再与类原型表征一起训练出解码神经网络,用来针对于支持集样本与类原型表征的相对分布信息输出一定数量的重构样本。3)将重构样本与支持集样本一起训练一个分类器,以提高小样本图像分类的准确率。本申请提高了分类器的性能和泛化能力。
-
公开(公告)号:CN113609330A
公开(公告)日:2021-11-05
申请号:CN202110907635.X
申请日:2021-08-09
Applicant: 哈尔滨理工大学
IPC: G06F16/732 , G06F16/783 , G06N3/04 , G06N3/08
Abstract: 本发明提出一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质,属于计算机视觉和自然语言处理交叉领域。首先,获得问题语句的词嵌入表示;其次,获得问题导向的视频文本级别特征表示;再其次,获得问题导向的具有空间注意的视频帧级别特征表示;再其次,获得最终的问题导向的视频帧级别特征表示;再其次,获得问题导向的视频片段级别特征表示;最后,得到具有问题导向的视频特征表示,并生成答案。解决了现有技术中存在的答案推理准确性低的技术问题。本发明通过提取视频的细粒度区域特征,可以更好地理解视频信息,增加了视频问答问题的准确度,缩小了视频和问题之间的模态差异。
-
公开(公告)号:CN113590879A
公开(公告)日:2021-11-02
申请号:CN202110896068.2
申请日:2021-08-05
Applicant: 哈尔滨理工大学
IPC: G06F16/783 , G06F16/732
Abstract: 本发明提出一种缩短时间戳网络解决多事件视频问答系统、方法、计算机及存储介质,属于计算机视觉和自然语言处理交叉领域。将视频和字幕提取为多级的事件嵌入,并提取问题和候选答案的特征。利用问题导向的注意力获取不同事件的注意力权重,并利用模糊理论中的截距阵提取视频中的关键事件嵌入。利用问题和答案分别关注不同模态的关键事件嵌入,生成具有问题导向和具有答案导向的上下文信息。自适应地融合问题导向和答案导向的上下文,生成答案。相比于一般视频问答方案,本发明从视频中提取多个事件的多模态嵌入,并利用模糊数学中的截距阵等理论筛选出关键事件,通过去除冗余信息提高了回答的准确性。本发明在视频问答中的效果比于传统方法更好。
-
公开(公告)号:CN117077672B
公开(公告)日:2024-04-26
申请号:CN202310822927.2
申请日:2023-07-05
Applicant: 哈尔滨理工大学
IPC: G06F40/295 , G06F40/284 , G06F40/289 , G06N3/045 , G06N3/0442 , G06N3/0464 , G06N3/049 , G06N3/08
Abstract: 本发明提出一种基于词汇增强和TCN‑BILSTM模型的中文命名实体识别方法,属于计算机自然语言技术领域。包括S1、将输入语句中的字符映射成字符表示;S2、将语句中的词汇和分词信息拼接到字符表示上,得到词汇增强后的字符表示;S3、使用预训练的BERT模型,获得输入语句中具有上下文表示的字符表示,将具有上下文表示的字符表示与词汇增强后的字符表示做拼接,得到拼接后的字符表示;S4、对拼接后的字符向量表示做特征提取,得到具有上下文信息和长距离语义信息的特征向量表示;S5、将具有上下文信息和长距离语义信息的特征向量表示输入CRF解码模型预测每个字符的实体标签。解决对于多层次语义信息识别率低的问题。
-
公开(公告)号:CN116758450B
公开(公告)日:2024-02-27
申请号:CN202310547607.0
申请日:2023-05-15
Applicant: 哈尔滨理工大学
IPC: G06V20/40 , G06V10/82 , G06V10/74 , G06F16/332 , G06F18/22 , G06F18/213 , G06N3/0464 , G06N3/042 , G06N3/048 , G06N3/0442 , G06N3/08
Abstract: 本发明提出一种基于时空图和相似图的协同注意力推理的视频问答方法,属于视频问答技术领域。包括:提取输入视频的帧级全局特征和目标级局部特征。提取输入问题语句的特征并对其进行编码,获取问题语句的上下文信息。根据提取的局部特征,构建目标之间的相似图和时空图,获得目标时间的相似关系和时空关系,并进行关系推理。依据视觉特征和问题特征,得到具有问题导向和具有视频导向的特征信息,并同时建立长期依赖。依据提取的答案特征,进行预测答案。解决了现有技术无法同时关注到视觉和文本内容的内在联系的问题,根据文本信息在视频
-
-
-
-
-
-
-
-
-