一种基于光强变换和聚类的量筒读数方法

    公开(公告)号:CN113111931A

    公开(公告)日:2021-07-13

    申请号:CN202110361275.8

    申请日:2021-04-02

    Applicant: 同济大学

    Inventor: 王瀚漓 王书蘅

    Abstract: 本发明涉及一种基于光强变换和聚类的量筒读数方法,包括以下步骤:1)将拍摄到的包含量筒式仪表盘的图片作为输入图片,并计算得到输入图片的亮度值;2)根据给定输入图片中量筒所在的位置和对应旋转角度,对输入图片进行裁剪和旋转操作,使得裁剪后图片的量筒呈竖直状态;3)将裁剪后的图片映射到HSV色域上,并根据图片的亮度值对Value通道进行亮度调节后,再转回到RGB色域;4)对量筒所在的位置区域进行聚类,利用聚类中心和液体颜色所占百分比得到量筒读数,并在图片中加以标明显示。与现有技术相比,本发明具有适用于室外弱光环境等优点。

    视觉问答系统中图像特征模块端到端训练方法及应用

    公开(公告)号:CN111814843A

    公开(公告)日:2020-10-23

    申请号:CN202010563278.5

    申请日:2020-06-19

    Applicant: 同济大学

    Inventor: 王瀚漓 龙宇

    Abstract: 本发明涉及一种视觉问答系统中图像特征模块端到端训练方法及应用,所述训练方法包括:获取视觉问答模型的初始模型参数;获取训练图像和对应的训练文本序列;对所述训练图像进行图像特征抽取,并对所述训练文本序列进行文本特征提取;对所述图像特征和文本特征进行特征融合,生成融合特征,基于所述融合特征生成输出答案;基于所述输出答案与所述训练图像的初始答案计算答案误差;在所述视觉问答模型的其他部分优化方法不变的前提下,基于所述答案误差以一阶优化方法对所述图像特征模块进行参数调整。与现有技术相比,本发明具有效果显著、实现简单等优点。

    一种基于自适应融合网络的视频情感分类方法

    公开(公告)号:CN109815903B

    公开(公告)日:2020-10-02

    申请号:CN201910069977.1

    申请日:2019-01-24

    Applicant: 同济大学

    Inventor: 王瀚漓 易云

    Abstract: 本发明涉及一种基于自适应融合网络的视频情感分类方法,包括以下步骤:1)构建自适应融合网络模型;2)将输入的视频集人分为训练集和测试集,并获取视频集中每个视频的三个模态特征向量,所述的三个模态为RGB、光流和音频;3)对于训练集,分别将三个模态的特征向量输入自适应融合网络,并采用基于梯度的优化算法进行优化,得到训练好的自适应融合网络模型Model;4)对于测试集,将每个视频的特征向量输入训练好的网络模型Model,并预测视频情感进行分类。与现有技术相比,本发明具有视频情感识别准确率高、描述视频情感准确、数据输入健壮、鲁棒性好等优点。

    一种基于区块拼接的实时图像实例分割方法

    公开(公告)号:CN111462140A

    公开(公告)日:2020-07-28

    申请号:CN202010362097.6

    申请日:2020-04-30

    Applicant: 同济大学

    Inventor: 王瀚漓 徐昱韬

    Abstract: 本发明涉及一种基于区块拼接的实时图像实例分割方法,包括以下步骤:1)采用第一多层卷积神经网络获取输入图像中物体实例的区块分布地图,并获取区块分布地图中每个像素的每个通道对应的值,即区块像素预测值b;2)采用第二多层卷积神经网络获取输入图像的区块拼接地图,并获取区块拼接地图中的每个像素的每个通道对应的值,即区块得分c;3)采用拼接算法将区块拼接地图和区块分布地图拼接组合得到物体实例的遮罩掩码;4)对所有预测物体实例的外接矩形进行处理,完成图像实例分割。与现有技术相比,本发明具有推理速度快、可扩展性强、计算耗费少、模型简洁、分割准确等优点。

    一种基于局部特征邻域信息的相似图片检索方法

    公开(公告)号:CN104199842B

    公开(公告)日:2017-10-24

    申请号:CN201410386860.3

    申请日:2014-08-07

    Applicant: 同济大学

    Inventor: 王瀚漓 王雷

    Abstract: 本发明涉及一种基于局部特征邻域信息的相似图片检索方法,包括:1)获取训练图片;2)采用Hessian‑Affine特征点检测算法和SIFT局部特征描述子在多尺度空间上对图片进行特征检测和描述;3)根据步骤2)提取的特征构造相对应的影子特征;4)利用k均值聚类算法对步骤2)中提取的特征进行聚类并生成包括K个视觉词的视觉字典;5)将上述所有特征逐个映射到与其L2距离最小的视觉词汇上,并存储在倒排索引结构中;6)保存所述倒排索引,形成查询数据库;7)获取查询图片相应的倒排索引,并将其与查询数据库进行比对,获得检索结果列表。与现有技术相比,本发明具有图片检索准确率高等优点。

    一种高效视频编码全零4×4系数块提前检测方法

    公开(公告)号:CN104185025B

    公开(公告)日:2017-05-24

    申请号:CN201310196481.3

    申请日:2013-05-23

    Applicant: 同济大学

    Inventor: 王瀚漓 杜焓

    Abstract: 本发明涉及一种高效视频编码全零4×4系数块提前检测方法,包括以下步骤:1)设定量化参数Qp和二维DCT变换矩阵C;2)根据Qp、C以及需检测的残差块计算全零块检测的阈值Th1和Th2;3)对于一个4×4残差块计算其对应的检测参数SAD;4)判断SAD是否满足SAD<Th1,若是,则判断该4×4残差块为全零块,返回步骤3)进行下一个残差块的检测,若否,则执行步骤5);5)判断SAD是否满足SAD<Th2,若是,则判断该4×4残差块为全零块,返回步骤3)进行下一个残差块的检测,若否,则对该4×4残差块进行DCT、量化、反量化和反DCT操作,返回步骤3)。与现有技术相比,本发明具有可提高视频编码速度、降低编码计算复杂度且检测效率高等优点。

    一种基于深度LSTM网络的图像描述生成方法

    公开(公告)号:CN106650789A

    公开(公告)日:2017-05-10

    申请号:CN201611022441.7

    申请日:2016-11-16

    Applicant: 同济大学

    Inventor: 王瀚漓 汤鹏杰

    CPC classification number: G06K9/6289 G06K9/6256 G06N3/0454

    Abstract: 本发明涉及一种基于深度LSTM网络的图像描述生成方法,包括以下步骤:1)提取图像描述数据集中图像的CNN特征并获取与图像对应描述参考句子中单词的嵌入式向量;2)建立双层LSTM网络,结合双层LSTM网络和CNN网络进行序列建模生成多模LSTM模型;3)采用联合训练的方式对多模LSTM模型进行训练;4)逐层增加多模LSTM模型中LSTM网络的层次,每增加一层并进行训练,最终获得逐层多目标优化及多层概率融合的图像描述模型;5)将逐层多目标优化及多层概率融合的图像描述模型中多层LSTM网络中各分支输出的概率分值进行融合,采用共同决策的方式,将概率最大对应的单词输出。与现有技术相比,本发明具有多层次、提高表达能力、有效更新、准确性高等优点。

    一种视频动作检测的提示裁剪方法

    公开(公告)号:CN119851180A

    公开(公告)日:2025-04-18

    申请号:CN202411924951.8

    申请日:2024-12-25

    Applicant: 同济大学

    Abstract: 本发明涉及一种视频动作检测的提示裁剪方法,方法包括以下步骤:1)获取视频数据,设置非关键帧标记、提示标记、关键帧标记;2)标记化处理后的视频数据输入视频动作检测模型中,得到裁剪后关键帧标记;3)提议标记和裁剪后的提示标记经过视频动作检测模型的解码器输出最终的特征序列,所述最终的特征序列包括标有提议标记的提议特征和标有裁剪后的提示标记的提示特征,基于最终的特征序列得到视频动作识别结果。与现有技术相比,本发明具有显著降低计算复杂度的同时保留关键帧实现视频动作检测全面优化等优点。

    不确定条件下炼油生产与公用系统的多周期协同排产方法

    公开(公告)号:CN119784183A

    公开(公告)日:2025-04-08

    申请号:CN202411892690.6

    申请日:2024-12-20

    Applicant: 同济大学

    Abstract: 本发明涉及一种不确定条件下炼油生产与公用系统的多周期协同排产方法,方法包括以下步骤:步骤S1、获取运行数据和外购动力煤和电的价格数据;步骤S2、根据价格数据预测不确定性集合的边界,进而构建动态不确定集;步骤S3、在动态不确定集下,建立炼厂生产系统与公用系统的多周期协同排产模型;步骤S4、采用基于动态不确定集的分布鲁棒优化方法引入模型;步骤S5、采用鲁棒对偶重构的方式对不确定条件下炼油生产与公用系统的多周期协同排产模型进行求解,输出生产计划。与现有技术相比,本发明具有提高模型输出的生产计划鲁棒性与保守性等优点。

    一种基于自监督学习的机器视觉编码方法和系统

    公开(公告)号:CN119254976A

    公开(公告)日:2025-01-03

    申请号:CN202411313425.8

    申请日:2024-09-20

    Applicant: 同济大学

    Inventor: 王瀚漓 唐梽森

    Abstract: 本发明涉及一种基于自监督学习的机器视觉编码方法和系统,方法包括以下步骤:将图像信息随机采样成子块,输入骨干网络头部提取和变换特征通道,得到第一特征;变换第一特征得到低维空间的特征,通过量化器对低维空间的特征增加均匀噪声得到量化后的特征,重建压缩特征得到第二特征;将第二特征变换至低维空间,再通过量化器增加均匀噪声降低冗余,提取和编码得到边信息,解码边信息之后采用混合高斯熵模型预测第二特征的概率分布参数以及码率,重建出编码特征的维度,为第三特征;提取和变换第三特征的维度,提取卷积特征加权为热力图,通过热力图得到有效正样本,得到编码结果。与现有技术相比,本发明具有编码复杂度低、语义可靠性高等优点。

Patent Agency Ranking