基于内容的图像识别方法
    71.
    发明公开

    公开(公告)号:CN1691054A

    公开(公告)日:2005-11-02

    申请号:CN200410035084.9

    申请日:2004-04-23

    Abstract: 一种基于内容的图像识别方法,包括步骤:首先对图像进行网格划分;然后以网格各节点为初始位置进行区域生长来获取图像中各节点周围的肤色信息;利用网格单元区域和各节点的相互投票的机制确定图像中的兴趣点和兴趣区域;在兴趣区域和兴趣点的基础上,利用点的运动提取图像中人体躯干的轮廓;最后,提取轮廓信息和轮廓内部中的局部信息生成特征向量对图像进行识别和性质判断。本发明突破了诸如色彩直方图匹配、小波变换轮廓匹配、肤色纹理描述、图像中心矩匹配等现有敏感图像识别技术速度慢、效率低、设备依赖性强等方面的难题,解决了三点式泳装图像,裸体图像和人脸图像的分类,使敏感图像识别技术得到了进一步的扩展并开拓了广阔的应用前景。

    基于人体局部和形体信息的敏感图像识别方法

    公开(公告)号:CN1508756A

    公开(公告)日:2004-06-30

    申请号:CN02157115.5

    申请日:2002-12-17

    Abstract: 一种基于人体局部和形体信息的敏感图像识别方法,包括步骤:对静态敏感图像进行划分;确定区域几何点;采用生长点的自主抖动确定生长点所属区域的图像局部特征;进行图像性质判断。本发明是一种新型的敏感图像识别技术,突破了诸如色彩直方图匹配、小波变换轮廓匹配、肤色纹理描述、图像中心矩匹配等国际现有敏感图像识别技术速度慢、效率低、设备依赖性强等方面的难题,具有广阔的应用前景。

    人脸图像鉴伪模型的训练方法、人脸图像鉴伪方法和装置

    公开(公告)号:CN119580333B

    公开(公告)日:2025-05-02

    申请号:CN202510127478.9

    申请日:2025-01-27

    Abstract: 本公开关于人脸图像鉴伪模型的训练方法、人脸图像鉴伪方法和装置,包括:提取训练样本图像中多个类型的指定特征;将多个类型的指定特征进行拼接;将指定拼接特征分别输入多个特征提取模块;利用每个特征提取模块输出的模型提取特征进行融合;将融合特征输入全连接层以预测训练样本图像的真伪;基于真实类别标签、预测结果和融合特征,计算损失;通过根据损失调整每个特征提取模块的参数。这样,通过预先从不同角度设计有针对性的指定特征,可以实现提高特征提取的全面性和丰富性。另外,还可以通过综合不同特征提取模块的优势来提高特征表示的鲁棒性和多样性,从而可以更好地应对复杂和多变的鉴伪场景。

    一种基于解耦对比学习的隐式图像退化估计方法

    公开(公告)号:CN119399029B

    公开(公告)日:2025-04-08

    申请号:CN202510013541.6

    申请日:2025-01-06

    Abstract: 本发明公开了一种基于解耦对比学习的隐式图像退化估计方法,属于图像盲超分辨率技术领域,所述方法采样具有相同退化信息的不同LR图像中的图块来构建正样本集合,在数据层面保障了内容、纹理等任务无关信息不会影响退化特征学习,同时,通过不断地循环配对采样图块来实现数据扩增;在训练过程中引入特征增强策略增加相同退化类型的正样本数量,从而在训练过程中进一步扩展每个退化类别的样本多样性,以保障网络更充分的学习退化信息。将利用本发明训练的隐式图像退化估计器应用于基于隐式退化特征引导的盲图像超分辨率网络,可以有效提升LR图像的退化信息建模质量,进而改善LR图像到HR图像的重建效果。

    NFT跨模态检索方法、装置及存储介质

    公开(公告)号:CN118520153B

    公开(公告)日:2024-12-06

    申请号:CN202410972733.5

    申请日:2024-07-19

    Abstract: 本发明提供一种NFT跨模态检索方法、装置及存储介质,涉及电数字数据处理技术领域,所述方法包括:获取用于检索的语义信息;将所述语义信息输入至NFT跨模态检索模型中,基于置信累加两阶段搜索算法获取与语义信息最为匹配的NFT检索结果,所述NFT跨模态检索模型是基于动态组件差分训练得到的。本发明提供的NFT跨模态检索方法、装置及存储介质,可以根据动态组件差分训练得到NFT跨模态检索模型,然后根据NFT跨模态检索模型通过置信累加两阶段搜索算法,从而能够根据用户输入的语义信息输出与之最为匹配的检索结果,可以提高NFT图像的检索精度。

    多模态预训练模型的训练方法、装置、设备和存储介质

    公开(公告)号:CN118133241B

    公开(公告)日:2024-09-13

    申请号:CN202410552190.1

    申请日:2024-05-07

    Abstract: 本发明涉及多模态技术领域,提供一种多模态预训练模型的训练方法、装置、设备和存储介质,包括:构建多模态预训练模型,包括视觉编码器、多语言编码器以及英文解码器;基于图像‑英文文本数据获取第一损失函数;基于多语言文本‑英文文本数据获取第二损失函数;基于目标文本‑图像数据应用于视觉编码器与多语言编码器进行对比学习获取第三损失函数;基于目标文本‑图像数据的相似度矩阵获取强负样本数据,基于强负样本数据与正样本数据应用于英文解码器获取第四损失函数;基于第一损失函数、第二损失函数、第三损失函数以及第四损失函数,得到训练好的多模态预训练模型。本发明既有效缓解对多语言‑图像数据的依赖,又直接有效的利用视觉特征。

    基于事件感知的跨模态视频文本检索模型的训练方法

    公开(公告)号:CN118410210A

    公开(公告)日:2024-07-30

    申请号:CN202410845065.X

    申请日:2024-06-27

    Abstract: 本发明涉及机器学习技术领域,提供一种基于事件感知的跨模态视频文本检索模型的训练方法,方法包括:获取样本视频和初始检索模型,样本视频包含各视频帧的帧描述;提取各视频帧的帧特征和样本视频的视频特征;基于各视频帧的帧特征和各帧描述的帧文本特征进行事件内容对齐确定事件内容感知损失;基于视频特征和样本视频的整体文本特征进行事件时序对齐,确定事件时序感知损失;基于事件内容感知损失和事件时序感知损失,得到跨模态视频文本检索模型。本发明提供的方法,通过进行视频帧粒度的事件内容对齐和视频粒度的事件时序对齐,使得跨模态视频文本检索模型的事件理解能力大大提升,进而提升跨模态视频文本检索能力和鲁棒性。

Patent Agency Ranking