一种基于掩码自监督遮挡像素重建的遮挡行人重识别方法

    公开(公告)号:CN117877068B

    公开(公告)日:2024-09-20

    申请号:CN202410016648.1

    申请日:2024-01-04

    Abstract: 本发明提出一种基于掩码自监督遮挡像素重建的遮挡行人重识别方法,属于多媒体信息处理中的行人重识别领域。方法包括一个基于掩膜指导的掩码自编码器微调图像补全模型与基于动态图与图卷积的遮挡行人重识别网络。首先,所述的图像补全模型通过随机对图像块进行删除通过剩余图像块生成完整图片的方式进行自监督训练,使用均方误差损失减小其生成图片与原图差异。然后,训练所述的遮挡行人重识别网络,并使用三元组损失、ID损失与中心损失共同训练以得到鲁棒且有判别力的特征。测试过程中利用图像补全模型和掩膜指导方法对有遮挡的图像进行补全,重建图像被障碍物遮挡的部分行人身体像素。然后,将补全的行人图像输入到遮挡行人重识别网络得到行人特征,并实施行人重识别。与其他方法相比,本发明显著提高了遮挡行人重识别的准确率。

    基于深层时序特征表示的语种识别方法

    公开(公告)号:CN117292675A

    公开(公告)日:2023-12-26

    申请号:CN202311388897.5

    申请日:2023-10-24

    Abstract: 基于深层时序特征表示的语种识别方法,本发明涉及一种基于深层时序特征表示的语种识别方法,属于语种识别技术领域。本发明的目的是为了解决现有方法对语种识别的精度低的问题。过程为:步骤1、获取不同语种的音频数据集;分别对不同语种的音频数据集进行数据增强;将数据增强后的不同语种的音频数据集裁剪成同等长度音频数据,作为训练集;步骤2、构建深度学习模型,将步骤1的训练集输入深度学习模型进行训练,直至达到了设置的最大迭代次数,获得训练好的深度学习模型;所述深度学习模型依次包括预训练模型、时间池和全连接层;步骤3、将待测音频数据输入训练好的深度学习模型,获得待测音频数据的语种类别。

    一种基于压缩神经网络的图像去噪方法

    公开(公告)号:CN111563846A

    公开(公告)日:2020-08-21

    申请号:CN201911008829.5

    申请日:2019-10-23

    Abstract: 本发明公开了一种基于压缩神经网络的图像去噪方法。首先将噪声图像进行分块来降低训练模型的代价,随后经过压缩神经网络进行图像去噪,增强机制、空洞卷积融合到所发明的去噪网络中提高去噪的性能,最后利用全局残差操作得到干净的图像。去噪网络由增强块和压缩块组成。增强块包括子网络、一个卷积层及激活函数、空洞卷积及激活函数,二个子网络通过Concat操作被连接到一起,增强捕获特征的鲁棒性,之后经过卷积层和激活函数对上述提取的特征信息进行继续学习。压缩块是用来压缩网络的参数和减少模型的训练代价。压缩模块包括卷积及激活函数、普通的卷积及激活函数和卷积层。这里的空洞卷积能提高去噪网络的性能。

    一种面向设施环境复杂遮挡的低负荷番茄果实检测方法

    公开(公告)号:CN119600434A

    公开(公告)日:2025-03-11

    申请号:CN202411593723.7

    申请日:2024-11-08

    Abstract: 本发明提出了一种面向设施环境复杂遮挡的低负荷番茄果实检测方法,属于目标检测领域。首先,利用动态卷积聚合多个自适应卷积核,以便更好地提取果实的丰富特征。此外,在颈部网络的终末阶段设计D‑KLA注意机制,通过自适应调节感受野,聚焦于番茄的不规则形变和遮挡问题。接着,构建一个基于比例因子的WIoU边界回归损失函数,提高检测边界的精度和收敛性。最后,采用基于语义频率提示的知识蒸馏方法对检测模型进行优化,实现模型轻量化。通过训练好的番茄目标检测模型对验证集进行检测,并评估其性能。与其他方法相比,本发明在复杂遮挡环境下实现了番茄果实检测的最佳性能,有效缓解了设施环境中管道遮挡、叶片遮挡以及果实间相互遮挡的问题,显著提高了检测精度,并大幅降低了模型的参数量和计算复杂度。

    一种面向视角缺失人脸识别的多维特征融合聚类方法

    公开(公告)号:CN119600403A

    公开(公告)日:2025-03-11

    申请号:CN202411660779.X

    申请日:2024-11-20

    Abstract: 一种面向视角缺失人脸识别的多维特征融合聚类方法,属于计算机视觉中的人脸图像数据聚类处理领域,本发明首先为非完备多视角人脸图像数据构建核矩阵,并进行多核补全。然后通过特征分解将每个视角下的核矩阵映射到不同的维度空间,获得不同维度的特征矩阵,再通过旋转矩阵将其融合为固定维度的一致表示矩阵。将一致表示作为原始数据的替代进行张量子空间学习,根据学习到的张量子空间矩阵计算亲和矩阵,并对其进行谱聚类,获得最终的聚类结果。与其他方法相比,本发明的精确度更高,性能更加稳健。

    基于通道加权的说话人确认方法、系统及设备

    公开(公告)号:CN118782049A

    公开(公告)日:2024-10-15

    申请号:CN202410921668.3

    申请日:2024-07-10

    Abstract: 基于通道加权的说话人确认方法、系统及设备,属于生物特征识别技术领域。为了解决基于语音信号直接识别方式存在语音信号特征利用不充分影响识别准确率的问题。本发明首先提取MFCC特征矩阵,再利用通道分段学习网络CSLN进行处理得到说话人低维特征向量,CSLN中的通道分段学习块学习特征权重;然后利用包括减性角边距损失和加性角边距损失的总损失函数进行训练模型。使用时利用CSLN得到两条语音的说话人低维特征向量,根据二者相似度判断第一语音与第二语音是否为同一说话人,进而最终用确定语音的说话人。

    基于文本特征整合的语义社交网络多视角社区发现方法

    公开(公告)号:CN114461879B

    公开(公告)日:2024-10-15

    申请号:CN202210073662.6

    申请日:2022-01-21

    Abstract: 本发明公开了一种基于文本特征整合的语义社交网络多视角社区发现方法,包括:抓取社交网络中用户发表语义信息;提取语义信息中预设数量的词频特征构建矩阵;对语义信息进行TF‑IDF值计算,提取预设数量的关键字特征构建矩阵;利用LDA主题模型获取语义信息的主题和每位用户的主题分布构建矩阵;利用Pearson相关系数求解上述矩阵之间的相似度矩阵,并与预设阈值进行比较,若大于则建立连接重构原社交网络,得到语义社交网络;利用基于图学习的多视角聚类算法对语义社交网络进行多视角社区发现,得到社区划分结果。该方法从多个视角考虑社交网络的语义信息再进行社区发现,保证社区结构划分结果的高质量、高准确度和高凝聚性。

    基于深层时序特征表示的语种识别方法

    公开(公告)号:CN117292675B

    公开(公告)日:2024-09-17

    申请号:CN202311388897.5

    申请日:2023-10-24

    Abstract: 基于深层时序特征表示的语种识别方法,本发明涉及一种基于深层时序特征表示的语种识别方法,属于语种识别技术领域。本发明的目的是为了解决现有方法对语种识别的精度低的问题。过程为:步骤1、获取不同语种的音频数据集;分别对不同语种的音频数据集进行数据增强;将数据增强后的不同语种的音频数据集裁剪成同等长度音频数据,作为训练集;步骤2、构建深度学习模型,将步骤1的训练集输入深度学习模型进行训练,直至达到了设置的最大迭代次数,获得训练好的深度学习模型;所述深度学习模型依次包括预训练模型、时间池和全连接层;步骤3、将待测音频数据输入训练好的深度学习模型,获得待测音频数据的语种类别。

    一种基于CNN和SwinTransformer混合编码的医学图像分割模型构建方法

    公开(公告)号:CN118521784A

    公开(公告)日:2024-08-20

    申请号:CN202410602100.5

    申请日:2024-05-15

    Abstract: 本发明针对现有医学图像分割方法在处理包含小尺寸器官和复杂边缘的图像时存在边缘分割不准确的问题,提出了一种基于CNN和SwinTransformer混合编码的医学图像分割模型。设计了一种混合编码器进行特征提取,其中多尺度特征提取使模型能够更准确地分割包含小尺寸器官的医学图像,引用SwinTransformer模块使模型具备长距离依赖建模能力,可以学习图像中不同区域之间的联系,从而更好的约束不同类别的边界;通过在跳跃连接中使用注意力门控,有效的抑制语义差异,方便特征的进一步融合;在解码器阶段,模型通过级联上采样方式对来自编码器和注意力门控模块输出的特征进行特征重组及解码,最后输出预测结果。

    基于时序多尺度特征表示学习的伪造语音检测方法及系统

    公开(公告)号:CN117809694B

    公开(公告)日:2024-08-09

    申请号:CN202410024330.8

    申请日:2024-01-08

    Abstract: 基于时序多尺度特征表示学习的伪造语音检测方法及系统,涉及一种伪造语音的检测方法及系统。为了解决没有充足利用语音各时序段特征信息的问题,以及现有的单一的深度神经网络进行伪造语音检测时存在的准确度较低的问题。本发明将预处理的语音信号输入wav2vec2.0提取初步特征,将初步特征矩阵输入基于多尺度时间序列的卷积网络提取特征矩阵,并将各组的输出进行拼接再通过一个最大池化层,然后将时序特征输入到SCG‑Res2Net50及分类器对语音进行打分,根据伪造语音的得分和真实语音得分进行真实语音与伪造语音的分类。

Patent Agency Ranking