一种视觉Transformer模型设计方法、装置、存储介质和程序产品

    公开(公告)号:CN118840414A

    公开(公告)日:2024-10-25

    申请号:CN202411038198.2

    申请日:2024-07-30

    IPC分类号: G06T7/62 G06T7/11

    摘要: 本发明提供一种视觉Transformer模型设计方法、装置、存储介质和程序产品,其中,方法包括:设定最小形变图像的大小和最小区域块的大小;根据原图的宽高,得到原图的长边与短边之比取整的值,确定形变目标图像的一边长和待划分区域块的一边长;根据原图的长边与短边之比取整的值,计算出形变目标图像的宽高和待划分区域块的宽高;根据形变目标图像的宽高和待划分区域块的宽高,对图像进行形变和划分,得到若干区域块,送入Transformer结构中。将每个区域块划分成若干方块,对所述若干方块进行编码,得到每个区域块特征;整合所有的区域块特征,送入Transformer结构中进行训练。本发明可以在较少形变情况下提取更符合原始图像的特征信息。

    一种基于多类文本表征的知识分类树融合方法及计算机可读存储介质

    公开(公告)号:CN118708721A

    公开(公告)日:2024-09-27

    申请号:CN202410116679.4

    申请日:2024-07-05

    摘要: 本发明提供一种基于多类文本表征的知识分类树融合方法及计算机可读存储介质,包括:获取知识体系进行知识表示,获得知识分类树;基于所述知识分类树进行文本向量化表征,获得知识向量;基于所述知识向量,进行知识融合;基于所述知识融合,进行知识存储;基于所述知识存储,进行知识可视化。跨知识体系的融合的方法大多是基于规则,对于复杂的知识结点表示效果不佳。知识分类树只能表示上下位关系,无法提供丰富的语义信息。针对上述问题,本发明提出了一种基于多类文本表征的知识分类树融合方法及计算机可读存储介质,使得整个知识分类树融合流程完备,自动化程度高,可信性强,还兼具了知识体系树可视化的功能,能够更清晰地浏览整个知识体系。

    一种基于缺陷描述的缺陷分类方法及系统

    公开(公告)号:CN118585876A

    公开(公告)日:2024-09-03

    申请号:CN202410487378.2

    申请日:2024-04-22

    摘要: 本发明提供一种基于缺陷描述的缺陷分类方法及系统,其中方法包括以下步骤:获得缺陷图像和对应的缺陷描述文本;将所述缺陷图像送入视觉编码器中进行编码,得到视觉特征;将所述缺陷描述文本送入语义编码器中进行编码,得到语义特征;将所述视觉特征送入多层感知机,经过激活函数,得到在每个候选标签上的概率预测p1,计算损失L1;将所述视觉特征和所述语义特征进行融合后,经过激活函数,得到在每个候选标签上的概率预测p2,计算损失L2;对所述损失L1和所述损失L2进行融合,得到最终损失;对所述概率预测p1和所述概率预测p2进行融合,取融合后最大概率值所属标签为缺陷预测结果。本发明能够更加准确地界定不同类别之间的区别,提高分类的准确率。

    对话引导信息的生成及问答方法、系统、智能对话机器人

    公开(公告)号:CN117610510B

    公开(公告)日:2024-09-03

    申请号:CN202311629235.2

    申请日:2023-11-30

    发明人: 马任 李帅帅

    IPC分类号: G06F40/166 G06N5/04

    摘要: 本公开提供了一种对话引导信息的生成及问答方法、系统、智能对话机器人,该对话引导信息的生成方法包括:基于预设数据集筛选获得若干个目标对话案例,每个目标对话案例对应一个对话主题,且若干个所述目标对话案例对应的所述对话主题相同,对若干个所述目标对话案例进行案例标准化处理,得到若干个标准对话案例,基于预设规则对若干个所述标准对话案例进行拼接,生成所述对话引导信息,其中,所述对话引导信息用于激发大语言模型的逻辑推理能力,帮助大语言模型生成有逻辑的、情感统一的对话回复,可控性高、体验性好。

    人脸情绪图像生成方法及装置、可读存储介质、终端

    公开(公告)号:CN117218224B

    公开(公告)日:2024-09-03

    申请号:CN202311057116.4

    申请日:2023-08-21

    摘要: 一种人脸情绪图像生成方法及装置、可读存储介质、终端,所述方法包括:对目标情绪文本以及输入音频分别进行编码,以得到情绪特征向量和语音特征向量序列;将情绪特征向量分别与每个语音特征向量进行融合,得到融合特征向量序列;将融合特征向量序列输入预训练的表情预测模型,以得到第一人脸表情向量序列;基于第一人脸表情向量序列和第二人脸表情向量序列进行渲染,以得到渲染人脸图像序列,所述第二人脸表情向量序列是根据与所述语音特征向量序列时序对齐的原始人脸图像序列确定的;将渲染人脸图像序列和所述情绪特征向量输入预训练的图像映射模型,以生成人脸情绪图像序列。上述方案有助于获得情绪状态更加自然且符合预期的人脸情绪图像。

    基于认知智能时空对齐的钢轧数据处理方法及系统

    公开(公告)号:CN118503645A

    公开(公告)日:2024-08-16

    申请号:CN202410434377.1

    申请日:2024-04-11

    发明人: 余炯 徐超

    摘要: 本公开提供了一种基于认知智能时空对齐的钢轧数据处理方法及系统,其中,钢轧数据处理方法包括:获取目标钢材在连铸过程中的第一异常事件对应的第一实时位置;基于目标对齐系数和所述第一实时位置预测所述目标钢材在轧钢过程中的第二异常事件对应的第二实时位置;所述目标对齐系数根据样本钢材在连铸过程中的第一异常事件对应的第一历史位置和所述样本钢材在轧钢过程中的第二异常事件对应的第二历史位置计算得到,用于表征钢材轧钢前后的延伸程度。本公开获得了连铸和轧钢过程中异常事件间的对齐关系,实现了对轧钢过程中数据的预测,节省了轧钢过程中数据采集的步骤,降低了制造成本,节约了资源。

    视频生成方法及装置
    7.
    发明公开

    公开(公告)号:CN118158488A

    公开(公告)日:2024-06-07

    申请号:CN202410138544.8

    申请日:2024-01-31

    摘要: 本发明公开一种视频生成方法及装置,该方法包括:接收用户提交的视频文件和音频文件,视频文件的所有视频帧包含人脸图像;分别对视频文件和音频文件按照设定长度进行切分,得到多个一一对应的原始视频片段和原始音频片段;获取与各原始音频片段对应的音频特征;将原始视频片段和对应的音频特征两两一组输入深度学习模型进行人像口型渲染,得到渲染后的视频图像;将视频图像与所述原始音频片段进行时间对齐后输出。利用本发明方案,可以快速高效地生成虚拟人脸视频,提升用户对虚拟现实产品的实时体验。

    煤质评价方法、系统、设备和介质

    公开(公告)号:CN117074643B

    公开(公告)日:2024-06-07

    申请号:CN202311056901.8

    申请日:2023-08-21

    发明人: 包忞立

    摘要: 本公开提供一种煤质评价方法、系统、设备和介质,所述煤质评价方法包括:获取待评价煤的多模态数据;分别对所述多模态数据中的各个模态数据进行特征提取,确定与各个模态数据分别对应的目标特征;根据所述目标特征确定各个所述目标特征所分别对应的目标评价结果,并根据所述目标评价结果确定最终的煤质评价结果。本公开通过获取待评价煤的多模态数据,以获取多维度的目标特征,并且根据所述目标特征以及历史数据,确定最终的所述煤质评价。可使评价信息更丰富,并提高评价精度。同时,仅需要待评价煤的目标特征即可确定评价信息,提高煤质评价的处理效率。

    一种基于样本标注质量修正的图像分类算法、系统、设备及介质

    公开(公告)号:CN118135321A

    公开(公告)日:2024-06-04

    申请号:CN202410316767.9

    申请日:2024-03-19

    摘要: 本发明提供一种基于样本标注质量修正的图像分类算法、系统、设备及介质,其特征在于,包括:获取已标注图片,进行样本标注质量评分,生成较为全面的样本标注质量评估;基于所述样本标注质量评估,进行样本标注质量评分融合,生成每个样本标注的质量评分;基于所述样本标注的质量评分,进行样本质量的图像分类模型修正,生成样本质量模型修正图像分类模型。现有的方法难以基于样本标注质量科学地调整这些权重,并将其有效地整合到图像分类模型中。本发明提出了一种基于样本标注质量修正的图像分类算法,解决在没有任何先验知识的情况下,实现图像的数据样本质量判定以及模型优化,量化了图像样本标注质量,并基于样本质量评分,提升了图像分类模型的效果。