Transformer及其改进的显式位置编码方法

    公开(公告)号:CN118095357A

    公开(公告)日:2024-05-28

    申请号:CN202410277725.9

    申请日:2024-03-12

    Abstract: 本发明公开了Transformer及其改进的显式位置编码方法,包括:步骤S1、获取原始数据;步骤S2、将所述原始数据映射为Token序列;步骤S3、基于应用场景,设计显示位置编码方式;步骤S4、通过拼接方式,对所述Token序列添加显示位置编码,获得具有位置信息的输入序列;步骤S5、将所述具有位置信息的输入序列输入至Transformer编码器/解码器中,获取显式位置编码注意力运算机制;步骤S6、基于所述显示位置编码注意力运算机制计算位置信息并融合,重复步骤S5至步骤S6直至迭代次数结束;步骤S7、获得所述显式位置编码注意力模型的推理结果。

    一种基于可回溯目标识别的智能寻物方法及系统

    公开(公告)号:CN114973099B

    公开(公告)日:2024-10-29

    申请号:CN202210685950.7

    申请日:2022-06-16

    Abstract: 本发明提供了一种基于可回溯目标识别的智能寻物方法及系统,包括:对场景视频进行稀疏模型建模处理,获得稀疏模型的视频信号;对所述视频信号采用YOLO目标识别算法,并基于所述稀疏模型构造自适应目标字典,识别所述视频信号中的目标;提取所述视频信号的视频关键帧,对所述视频关键帧进行预处理,获取所述目标最后出现的位置。本发明通过基于稀疏模型的实时目标识别技术在实现目标识别的同时提高了信号处理性能以达到实时计算;通过自适应目标特征字典构造技术对多场景目标复杂的问题有良好表现。

    基于ViT融合LPOM优化方法的多模态图像分类方法

    公开(公告)号:CN117689940A

    公开(公告)日:2024-03-12

    申请号:CN202311690885.8

    申请日:2023-12-11

    Abstract: 本发明公开了一种基于ViT融合LPOM优化方法的多模态图像分类方法,包括:将待分类图像输入ViT模型后,基于Transformer结构提取所述待分类图像的图像特征;基于文本嵌入层提取所述待分类图像的文本特征;将所述图像特征和所述文本特征进行融合得到图像多模态特征;基于LPOM优化后的编码器对所述图像多模态特征进行迭代处理,输出图像分类预测结果。本发明通过引用LPOM来优化ViT模型,能够提高ViT模型的泛化能力,进而提升整体模型的的鲁棒性和泛化能力,提升模型对图片分类的准确率。

    一种基于可回溯目标识别的智能寻物方法及系统

    公开(公告)号:CN114973099A

    公开(公告)日:2022-08-30

    申请号:CN202210685950.7

    申请日:2022-06-16

    Abstract: 本发明提供了一种基于可回溯目标识别的智能寻物方法及系统,包括:对场景视频进行稀疏模型建模处理,获得稀疏模型的视频信号;对所述视频信号采用YOLO目标识别算法,并基于所述稀疏模型构造自适应目标字典,识别所述视频信号中的目标;提取所述视频信号的视频关键帧,对所述视频关键帧进行预处理,获取所述目标最后出现的位置。本发明通过基于稀疏模型的实时目标识别技术在实现目标识别的同时提高了信号处理性能以达到实时计算;通过自适应目标特征字典构造技术对多场景目标复杂的问题有良好表现。

Patent Agency Ranking