视觉问答任务的评价方法、设备、介质及计算机程序产品

    公开(公告)号:CN118467709B

    公开(公告)日:2024-09-24

    申请号:CN202410924966.8

    申请日:2024-07-11

    Abstract: 本发明涉及人工智能技术领域,具体公开了视觉问答任务的评价方法、设备、介质及计算机程序产品,通过将包括问题数据和视觉模态数据的第一多模态数据输入目标视觉问答模型得到生成答案数据,将包括生成答案数据、问题数据、评价任务提示词和视觉模态数据的第二多模态数据输入预训练模型,该评价任务提示词携带评价任务信息和评价标准,以使预训练模型对生成答案数据进行准确性评价并给出推理过程数据,提高了对目标视觉问答模型的质量评价结果的可解释性和可靠性,有助于获得更准确的模型质量评价结果,通过将据此检验过质量合格的目标视觉问答模型部署于目标设备,保障了目标视觉问答模型在应用中的生成效果。

    应答信息生成方法、系统、装置、设备、介质及程序产品

    公开(公告)号:CN118093847B

    公开(公告)日:2024-07-19

    申请号:CN202410518171.7

    申请日:2024-04-28

    Abstract: 本发明涉及人工智能问答技术领域,具体公开了应答信息生成方法、系统、装置、设备、介质及程序产品,在通过根据输入的问题信息获取提示词输入语言模型进行推理计算的过程中,在利用局部过滤注意力层增强模型的自然语言表达能力的基础上,在每次推理计算中进入局部过滤注意力层时,获取上一次推理计算保存的结尾输入张量拼接至卷积层的输入张量之前,并保存本次推理计算卷积层的结尾输入张量,使得从每次推理计算只需输入上一次推理计算生成的标记即可,可以有效减少计算量,提升模型推理效率,进而提高了应答信息生成的效率,同时减少了对计算设备的存储资源和计算资源的需求,降低了计算设备完成人工智能问答任务的压力。

    应答信息生成方法、系统、装置、设备、介质及程序产品

    公开(公告)号:CN118093847A

    公开(公告)日:2024-05-28

    申请号:CN202410518171.7

    申请日:2024-04-28

    Abstract: 本发明涉及人工智能问答技术领域,具体公开了应答信息生成方法、系统、装置、设备、介质及程序产品,在通过根据输入的问题信息获取提示词输入语言模型进行推理计算的过程中,在利用局部过滤注意力层增强模型的自然语言表达能力的基础上,在每次推理计算中进入局部过滤注意力层时,获取上一次推理计算保存的结尾输入张量拼接至卷积层的输入张量之前,并保存本次推理计算卷积层的结尾输入张量,使得从每次推理计算只需输入上一次推理计算生成的标记即可,可以有效减少计算量,提升模型推理效率,进而提高了应答信息生成的效率,同时减少了对计算设备的存储资源和计算资源的需求,降低了计算设备完成人工智能问答任务的压力。

    图文数据匹配检测方法、装置、设备及介质

    公开(公告)号:CN117992800A

    公开(公告)日:2024-05-07

    申请号:CN202410371434.6

    申请日:2024-03-29

    Abstract: 本发明涉及人工智能领域,公开了一种图文数据匹配检测方法、装置、设备及介质,包括:将图像和文本描述输入至多模态大模型;采用特征提取模块对图像和文本描述进行特征提取,得到初始视觉特征和初始文本特征;利用多模态融合模块对初始视觉特征和初始文本特征进行融合处理,其中使用自注意力机制模块对初始文本特征进行语义学习,并使用交叉注意力模块将初始视觉特征与自注意力机制模块输出的特征信息进行特征融合;采用分类器模块对融合后的特征进行降维处理,得到匹配度分数并输出匹配结果。这样可以解决长文本和复杂语境的问题和图像文本交互能力的缺陷,提高处理文本数据的能力,实现多模态数据之间的信息融合,提升匹配结果的准确性。

    一种文本生成方法、装置、电子设备、程序产品及存储介质

    公开(公告)号:CN118690010A

    公开(公告)日:2024-09-24

    申请号:CN202410867700.4

    申请日:2024-06-30

    Abstract: 本发明提供一种文本生成方法、装置、电子设备、程序产品及存储介质,涉及人工智能领域,方法包括:接收输入图像和输入文本,并分别对输入图像和输入文本进行编码,得到图像表征向量和文本表征向量;利用图像表征向量对文本表征向量进行交叉注意力处理,并对交叉注意力处理结果进行自注意力处理得到特征提取向量;对特征提取向量进行逻辑计算,得到根据输入图像和输入文本二者的语义所生成的输出文本;可通过调整图像与文本间的特征交互方式,避免产生输入序列长度的二次方的计算增加,进而可减少模型的算力需求,并能够有效提升用户的使用体验。

    一种数据过滤方法、装置、设备及介质

    公开(公告)号:CN118467769A

    公开(公告)日:2024-08-09

    申请号:CN202410444780.2

    申请日:2024-04-12

    Abstract: 本发明公开了一种数据过滤方法、装置、设备及介质,涉及数据处理技术领域。通过训练图文对数据的图像数据和文本数据结合关键字信息进行匹配处理得到标注未完全匹配和完全匹配对应的数据,基于标注样本数据训练得到多模态样本质量识别模型,以进行初始图文对数据的识别,得到过滤后的图文对数据,避免传统的多模态大模型数据过滤过程采用人工标注方式进行过滤带来的效率降低和图文对数据质量降低的问题,本发明通过识别模型进行识别过滤,在一定程度上提高过滤效率。另外,对于匹配处理过程中存在的幻视模糊情况,本发明在训练识别模型时采用统一的关键字信息对图文对数据进行匹配处理的数据质量把控,提高图文对数据的质量。

    视觉问答任务的评价方法、设备、介质及计算机程序产品

    公开(公告)号:CN118467709A

    公开(公告)日:2024-08-09

    申请号:CN202410924966.8

    申请日:2024-07-11

    Abstract: 本发明涉及人工智能技术领域,具体公开了视觉问答任务的评价方法、设备、介质及计算机程序产品,通过将包括问题数据和视觉模态数据的第一多模态数据输入目标视觉问答模型得到生成答案数据,将包括生成答案数据、问题数据、评价任务提示词和视觉模态数据的第二多模态数据输入预训练模型,该评价任务提示词携带评价任务信息和评价标准,以使预训练模型对生成答案数据进行准确性评价并给出推理过程数据,提高了对目标视觉问答模型的质量评价结果的可解释性和可靠性,有助于获得更准确的模型质量评价结果,通过将据此检验过质量合格的目标视觉问答模型部署于目标设备,保障了目标视觉问答模型在应用中的生成效果。

    图文数据匹配检测方法、装置、设备及介质

    公开(公告)号:CN117992800B

    公开(公告)日:2024-06-14

    申请号:CN202410371434.6

    申请日:2024-03-29

    Abstract: 本发明涉及人工智能领域,公开了一种图文数据匹配检测方法、装置、设备及介质,包括:将图像和文本描述输入至多模态大模型;采用特征提取模块对图像和文本描述进行特征提取,得到初始视觉特征和初始文本特征;利用多模态融合模块对初始视觉特征和初始文本特征进行融合处理,其中使用自注意力机制模块对初始文本特征进行语义学习,并使用交叉注意力模块将初始视觉特征与自注意力机制模块输出的特征信息进行特征融合;采用分类器模块对融合后的特征进行降维处理,得到匹配度分数并输出匹配结果。这样可以解决长文本和复杂语境的问题和图像文本交互能力的缺陷,提高处理文本数据的能力,实现多模态数据之间的信息融合,提升匹配结果的准确性。

Patent Agency Ranking