一种基于多模态思维链的多模态大语言模型属性预测方法

    公开(公告)号:CN119693768A

    公开(公告)日:2025-03-25

    申请号:CN202411765587.5

    申请日:2024-12-04

    Applicant: 浙江大学

    Abstract: 本发明共公开了一种基于多模态思维链的多模态大语言模型属性预测方法,包括:获取多模态大语言模型,与掩码生成器和场景图解析器一起构成多模态属性预测框架;设计分层思维链的推理方法,将属性预测任务输入多模态属性预测框架,提取出属性表的层级,生成分层、格式化的推理提示;将属性预测任务分解成层级化的子任务,并为模型的下一步预测选取提示方法;通过批判性思维监督模型预测过程;采用逻辑检查的提示方法,识别出图像中的物体类别,并结合模型中的常识知识,提取相对应的属性值;结合生成的场景图与模型中的常识知识,对预测出的属性进行检查。本发明可有效提升属性预测任务的上下文理解能力、逻辑一致性、任务通用性和模型推理效率。

    一种基于自适应位置编码和并行解码的3D视觉定位方法及系统

    公开(公告)号:CN119399443A

    公开(公告)日:2025-02-07

    申请号:CN202411537179.4

    申请日:2024-10-31

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于自适应位置编码和并行解码的3D视觉定位方法及系统,其中方法包括:使用文本编码器处理输入的自然语言文本,得到文本令牌和特征;使用视觉编码器处理3D点云输入,得到种子点和特征;采用交叉编码器对视觉和文本特征进行互调,更新文本特征和视觉特征;预测种子点的置信度分数并排序,选出分数最高的候选点作为查询;根据自然语言描述的语义将文本令牌分为目标物体属性令牌和周围空间环境令牌;使用双分支并行解码器,生成新的查询特征,并由框预测头生成粗预测框;将生成的查询特征投影到位置特征和对象语义特征中,用于计算损失并训练网络;使用查询特征的投影结果为粗预测框评分,取分数最高者为视觉定位结果。

    一种基于互近邻的少样本图像分类方法及系统

    公开(公告)号:CN112633382B

    公开(公告)日:2024-02-13

    申请号:CN202011561516.5

    申请日:2020-12-25

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于互近邻的少样本图像分类方法及系统,其中,少样本图像分类方法包括:(1)神经网络模型前向推导查询图像和支持图像的视觉特征表示;(2)使用互近邻算法筛选少样本分类中与任务相关的局部特征描述符;图像集中各类之间的相似度;(4)使用带有标签的图像数据集进行少样本任务划分后训练神经网络模型;(5)根据与支持图像集中各类之间的相似度进行排序,选取最大相似度的类作为该图像的类预测。利用本发明,可以使得少样本图像分类在训练过程中,排除大量来自背景的局部特征描述符对相似度计算的干扰,使得分类的结果更加鲁棒。(3)使用筛选得到的描述符计算查询图像和支持

    基于深度学习的集装箱车辆纵向动力学的加速度预测方法

    公开(公告)号:CN117172104A

    公开(公告)日:2023-12-05

    申请号:CN202311045196.1

    申请日:2023-08-18

    Abstract: 本发明公开了一种基于深度学习的集装箱车辆纵向动力学的加速度预测方法。预先建立一个深度神经网络模型,采集集装箱车辆在加速度已知情况下的纵向动力学参数、车辆自身参数和环境参数,并结合已知的加速度输入到深度神经网络模型中进行训练,然后利用训练后的深度神经网络模型针对待测情况下的集装箱车辆进行加速度预测。本发明能够在各种工况下,保持模型输出的加速度与测量值基本一致,同时显著减小了测量噪声;模型输出的速度与测量值基本一致,显著减小了预测误差,保证模型的最终输出精度。

    一种不受旋转变换影响的点云3D物体检测方法

    公开(公告)号:CN115601607A

    公开(公告)日:2023-01-13

    申请号:CN202211293036.4

    申请日:2022-10-21

    Inventor: 谢亮 蔡登 何晓飞

    Abstract: 本发明公开了一种不受旋转变换影响的点云3D物体检测方法,包括:(1)将神经网络第一层的网络权重视为分布在和点云特征具有相同维度的特征空间的向量集合;(2)对输入的点云数据进行种子点采样及邻域聚合,得到每个种子点周围的局部点云;(3)对网络权重和局部点云进行主成分分析;(4)将网络权重和局部点云的权重对齐,得到具有旋转不变性的特征;(5)将步骤(4)的局部点云特征输入神经网络进行前馈传递,检测网络的头部输出3D物体框的预测;(6)通过梯度反向传播训练神经网络;(7)训练完毕后,进行点云的3D物体检测任务。利用本发明,可以大大提升点云在任意旋转变换下的分类准确率、从而提升3D物体检测任务上的准确率。

    一种基于集成知识蒸馏的图像分类方法

    公开(公告)号:CN112199535B

    公开(公告)日:2022-08-30

    申请号:CN202011058365.1

    申请日:2020-09-30

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于集成知识蒸馏的图像分类方法,包括以下步骤:(1)预训练教师模型,将教师模型的训练过程分为三个阶段,从每个阶段中取出一个最好的教师模型,得到3个教师模型T1、T2和T3;(2)训练学生模型,将学生模型的训练过程划分为三个阶段,每个阶段用得到的三个教师模型来联合指导学生模型;其中,T3在每个阶段的权重保持不变;T1在第一阶段权重最大,T2在第二阶段权重最大;(3)使用训练好的学生模型进行图片分类任务,输入待分类图片,进行分类预测。利用本发明,使得学生模型从教师模型中学习知识变得简单,从而进一步提高学生模型的性能,在提高模型响应速度的同时保证图像分类的精度。

    一种基于擦除显著性区域的行人重识别方法

    公开(公告)号:CN112016661B

    公开(公告)日:2022-05-06

    申请号:CN202010842675.6

    申请日:2020-08-20

    Applicant: 浙江大学

    Inventor: 沈栋 蔡登 何晓飞

    Abstract: 本发明公开了一种基于擦除显著性区域的行人重识别方法,包括:(1)从训练数据中随机选择P个不同的人,每个人随机选取K张图片,得到P×K张图片作为一次训练数据;(2)根据图片之间的相似程度,得到图片的显著性区域;(3)根据预先设置的擦除区域和概率,擦除一定比例的显著性区域;(4)提取擦除了显著性区域的图片的特征并且利用自适应全局池化层来进行池化操作,利用该特征计算误差;(5)计算原图的特征向量,利用该特征向量计算误差;(6)结合步骤(4)和(5)得到的误差,回传梯度训练模型;(7)利用训练好的模型进行行人重识别应用。利用本发明,可以帮助模型学到更佳丰富的特征表达,提升重识别效果。

    一种基于假设性半监督学习的开放领域问答方法

    公开(公告)号:CN108717413B

    公开(公告)日:2021-10-08

    申请号:CN201810253156.9

    申请日:2018-03-26

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于假设性半监督学习的开放领域问答方法,包括:(1)使用信息检索技术从语料库中将与问题相关的文章抽取出来;(2)假设给定问答训练集自带的文章是唯一的正标签,从语料库中抽取的所有文章都是负标签;(3)构建深度学习模型,通过训练一个文章打分器学习正标签的特征,训练一个阅读器从文章中选择正确答案;(4)进行文章相关性排序,将相关性高的前n个文章送入打分器内打分并根据分数重新标签;(5)重复步骤3和步骤4,直到模型收敛;(6)模型训练完毕,进行开放领域问答应用。利用本发明可以在不依赖额外人工标注和外部知识的情况下大幅提升现有开放领域问答系统的文章抽取质量和答案的准确率。

    一种基于解耦自适应判别性特征学习的行人重识别方法

    公开(公告)号:CN110443174B

    公开(公告)日:2021-08-10

    申请号:CN201910683172.6

    申请日:2019-07-26

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于解耦自适应判别性特征学习的行人重识别方法,包括:(1)选取已有的行人重识别模型,将模型分为特征抽取层和分类器层;(2)在训练阶段,每训练完N遍数据后对分类器层的参数进行随机初始化,特征抽取层的学习率随数据的迭代不断降低,分类器层的学习率保持不变;训练直到目标函数收敛;(3)在测试阶段,只保留特征抽取层,作为训练好的网络模型;(4)在行人检索阶段,用训练好的网络模型抽取图片库中每张图片的特征向量,将待查询行人图片特征向量和图片库中每张图片特征向量进行相似度排序并选择排序最靠前的图片的身份作为最终识别结果。利用本发明,可以很好地解决了现在行人特征学习网络优化不充分的问题。

    一种无需后处理操作的3D目标检测方法

    公开(公告)号:CN113052031A

    公开(公告)日:2021-06-29

    申请号:CN202110276978.0

    申请日:2021-03-15

    Applicant: 浙江大学

    Abstract: 本发明公开了一种无需后处理操作的3D目标检测方法,包括:(1)初始化K个3D候选框和1个物体嵌入特征;(2)对输入的点云样本进行特征提取,得到点特征;(3)在点特征上提取K个3D候选框特征;(4)使用物体嵌入特征对3D候选框特征进行筛选和提取,得到K个特征;(5)使用自注意力模型让K个特征交换特征信息,得到K个提议特征;(6)根据提议特征预测K个预测结果,并与标注信息一对一匹配后训练;(7)用步骤(6)预测的K个预测结果的3D候选框替代步骤(1)的K个3D候选框,用步骤(5)得到的特征提议替代步骤(1)的物体嵌入;重复步骤(3)~(7)多次得到检测结果。本发明可以解决现有3D目标检测器存在冗余预测的问题。

Patent Agency Ranking