一种自适应交互结构学习的双二次池化模型

    公开(公告)号:CN113139587B

    公开(公告)日:2024-02-06

    申请号:CN202110350164.7

    申请日:2021-03-31

    Inventor: 谭敏 袁富 俞俊

    Abstract: 本发明提出了一种自适应交互结构学习的双二次池化模型。本发明步骤如下:首先利用层次化深度模型提取图像的多级深度特征,在跨级特征间获得多组双二次池化特征后,构建维度为池化组个数的权重向量;在深度网络中添加权重与池化特征的乘法模块,在加权池化特征上进行分类;其次对整个权重向量施加L1范数的稀疏约束;然后设计监督模块,在所有加权池化特征上构建分类损失。4、根据上述步骤建立多任务端到端的深度学习模型,在特定数据集上训练并微调整个网络,将最终模型在测试集上测试性能。本发明能针对特定数据集自适应挖掘最合适的交互结构,具有很强的现实性和普适性。

    基于特征重组的个性化人脸信息保护方法

    公开(公告)号:CN117313136A

    公开(公告)日:2023-12-29

    申请号:CN202311063992.8

    申请日:2023-08-23

    Abstract: 本发明公开了一种基于特征重组的个性化人脸信息保护方法,包括如下步骤:S1、使用预训练GAN Inversion网络将待匿名图像特征化预处理得到潜空间特征,并获取用户的匿名属性关键字列表K1和保持属性关键字列表K2;S2、构建跨模态驱动的属性解耦‑融合网络;S3、将用户给出的匿名属性关键字的匿名;S4、将用户给出的匿名属性关键字的恢复;S5、使用公开数据集进行训练及多数据集泛化测试,输出最终结果。该方法可以根据实际需求支持细粒度的匿名化和属性保留,在不同场景下用户可以灵活决定保留或匿名化哪些属性。

    一种基于特征选择去偏的推荐系统点击预测的方法

    公开(公告)号:CN117272130A

    公开(公告)日:2023-12-22

    申请号:CN202311052718.0

    申请日:2023-08-21

    Inventor: 谭敏 葛炳航 俞俊

    Abstract: 本发明公开了基于特征选择去偏的推荐系统点击预测方法。首先进行数据预处理,将数据中的特征进行特征组合和特征映射,对组合特征进行偏差分析和重要性评估;再基于双塔模型架构搭建主塔网络和去偏塔网络;之后模型训练和特征选择,最后对模型训练效果进行评估。本发明基于经典的双塔模型,对偏置特征单独建模,通过加入具有重要偏差信息的组合特征和在训练过程中特征选择的方法,将去偏方法应用到深度推荐模型,在模型的训练过程中有效学习偏差信息,减少数据偏差对推荐结果的影响,实现更为准确的CTR预测。

    基于视觉问答的医疗影像报告结构化生成方法

    公开(公告)号:CN116168796B

    公开(公告)日:2023-11-10

    申请号:CN202310198891.5

    申请日:2023-03-03

    Abstract: 本发明提出了一种基于视觉问答的医疗影像报告结构化生成方法。本发明步骤如下:1、VQA模型设计与改造。2、“问题‑状态树”设计。3、信息自动化提取。4、结构化信息整合。本发明以视觉问答技术为基础,以生成医疗影像诊断报告为目的,着眼于增强问题与模型之间的交互性,设计了以“问题‑状态树”为核心的一系列数据结构及其相互间的转化算法。本发明一定程度上降低了视觉问答技术中问题组织上的随意性,有助于VQA模型在医学影像中获取更加有效的信息。使用这种技术构建的模型具有高度的可扩展性,能够以更低的训练成本完成更为全面的业务,在实际应用中可根据具体不同的应用场景灵活生成逻辑完整、包含丰富信息的医疗影像诊断报告。

    基于高效通道注意力机制的龙格库塔模块去雨的方法

    公开(公告)号:CN113436101B

    公开(公告)日:2023-11-10

    申请号:CN202110718789.4

    申请日:2021-06-28

    Abstract: 本发明提出一种基于高效通道注意力机制的龙格库塔模块去雨的方法。本发明包括以下步骤:1.图像预处理;2.利用全局回传网络对图像高阶信息进再提取;3.基于高效通道注意力机制的龙格库塔模块的图像特征提取;4.利用负结构相似性计算输出图像与真实图像的损失值,利用该损失值进行梯度回传,进而优化网络性能。本发明通过堆叠多个基于高效通道注意力机制的龙格库塔模块,构建深度去雨模型,较好地特提取雨痕特征,并重构清晰的雨天背景图像。同时,为了获取的高阶特征能够改善低阶特征,采用全局回传机制,利用雨痕的高阶特征以更新其低阶特征,提高对雨痕表征的提取质量,逐步提升重建背景图的质量,并且获得了目前在单幅图像去雨的最好效果。

    一种基于深度交互适配网络模型的通用多模态学习方法

    公开(公告)号:CN116882477A

    公开(公告)日:2023-10-13

    申请号:CN202310847953.0

    申请日:2023-07-11

    Inventor: 余宙 王眺 俞俊

    Abstract: 本发明公开了一种基于深度交互适配网络模型的通用多模态学习方法。本发明步骤:1、获取图像单模态以及文本单模态的预训练模型,在两个预训练模型之间增设多模态适配器模块,2、分别加载图像和文本单模态模型的预训练权重参数并保持其不变,在多模态下游任务上微调训练所设计的适配器的权重参数,3、利用所微调的多模态适配器模型在多模态下游任务上进行推理部署。本发明通过为图像和文本两个单模态的预训练模型构建外部适配器网络,提取两个单模态模型的分层次特征,使用所构建的适配器进行多模态细粒度对齐融合,使单模态预训练模型可以迅速适用于多种多模态任务,并获得可与大规模多模态预训练模型相比的性能。

    基于词性分解的深度用户点击特征的细粒度图像分类方法

    公开(公告)号:CN111191691B

    公开(公告)日:2023-09-29

    申请号:CN201911296150.0

    申请日:2019-12-16

    Inventor: 俞俊 谭敏 周剑

    Abstract: 本发明公开了一种基于词性分解的深度用户点击特征的细粒度图像分类方法。本发明先利用从互联网上获取到的用户点击数据,利用自然语言处理的分词、词干化、去除停顿词等技术获得单词,同时获得单词的词性,分词性在得到的单词中挑选合适的关键词,然后利用得到的关键词和其对应的词频得到词频逆文档频率特征,再把通过这种方式获得的特征向量进行整合,得到一个特征张量,最后利用这种特征,专门构建并适用于该种这特征的网络进行分类。本发明在获得高精确率的前提下,可以有效决解传统方法所不能克服的语义鸿沟的问题。该方法的另一个好处,得益于网络结构的小巧,容易部署,更加适合实际的生产实践活动。该方法最终在Clickture‑Dog的数据集上取得了优异的结果。

    基于生成对抗网络的增量式聚焦的图像到图像转换方法

    公开(公告)号:CN111223057B

    公开(公告)日:2023-09-22

    申请号:CN201911296148.3

    申请日:2019-12-16

    Inventor: 俞俊 高飞 朱静洁

    Abstract: 本发明公开了一种基于生成对抗网络的增量式聚焦的图像到图像转换方法。本发明包括以下步骤:1、对源图像、目标图像进行数据预处理构成数据二元组;2、网络结构设计,在生成对抗网络模型中加入增强的自我注意力机制模块,并针对网络的两个输出,相应地采用一个鉴别器,进一步增强表征能力以生成更多的细节;3、损失函数设计,提出了增量式聚焦损失以稳定、加速网络训练;4、模型训练,利用反向传播算法训练对抗神经网络模型参数。本发明将增量式聚焦损失和增强的自我注意力机制模块应用于各种无监督和有条件的GANs中来证明它们的有效性,并且达到了训练速度快且稳定的效果。

Patent Agency Ranking