基于TRANSFORMER的医学图像分割模型优化方法

    公开(公告)号:CN117437416A

    公开(公告)日:2024-01-23

    申请号:CN202311395566.4

    申请日:2023-10-26

    Abstract: 本发明公开了一种基于TRANSFORMER的医学分割模型优化方法,包括如下步骤:S1、对原始图像进行U‑Net分割,所述U‑Net分为三层,分别是主干提取网络、加强特征提取网络和预测网络;S2、对原始图像进行Swin‑UNet分割,所述Swin‑UNet采用U‑Net作为主干网络,并将两个连续的Swin Transformer块替换U‑Net中的卷积模块;S3、将步骤S1和步骤S2输出的结果互相作为伪标签进行特征补充;S4、通过监督损失的方法对步骤S1‑S3组成的模型进行学习。该方法有效压缩了整个编码解码的学习参数,使Swin‑UNet模型参数从原来的110M缩小到55M。

    基于图神经网络的机器生成稿件可解释评价方法及系统

    公开(公告)号:CN117236295A

    公开(公告)日:2023-12-15

    申请号:CN202311197701.4

    申请日:2023-09-15

    Abstract: 本发明公开了一种基于图神经网络的机器生成稿件可解释评价方法及系统,该方法包括:获取机器生成的多模态新闻稿件,对多模态新闻稿件内容进行编码,获取新闻稿件整体编码向量和新闻稿件要素编码向量;将新闻稿件整体编码向量和新闻稿件要素编码向量输入层次化图神经网络中,构建新闻稿件异构图,通过基于多层级注意力机制的新闻稿件异构图卷积,更新新闻稿件整体编码向量和新闻稿件要素编码向量,将更新后的编码向量拼接为新闻稿件表示矩阵,通过全连接层输出可解释评价标签预测结果。本发明设计多个可解释评价标签,并利用图神经网络聚合新闻稿件内容及评价信息,对稿件质量进行多层级、细粒度的评价,给出多模新闻稿件的可解释评价标签。

    基于预训练语言模型适配网络的跨模态视频片段检索方法

    公开(公告)号:CN116662609A

    公开(公告)日:2023-08-29

    申请号:CN202310695438.5

    申请日:2023-06-13

    Inventor: 余宙 杨宏福 俞俊

    Abstract: 本发明公开了预训练语言模型适配网络的跨模态视频文本片段检索方法。本发明步骤如下:1、数据预处理及数据集的划分,2、使用预训练的网络对视频提取特征,3、构建视频特征序列和候选段特征序列,4、构建文本特征序列,5、构建预训练语言模型,6、构建片段检索适配网络,7、损失函数,8、训练模型、9、网络预测值计算。本发明提出一种基于预训练语言模型适配网络的跨模态视频文本片段检索方法,同时采用视频帧和候选段两种表示方法,在一次前向传播中实现了文本特征、帧特征和视频特征的同时交互,充分挖掘视频和文本信息之间的潜在联系,相比于传统采用帧回归再候选段排序的两阶段模式性能有了很大提升。

    一种面向多模态多任务学习的轻量化适配网络学习方法

    公开(公告)号:CN116644316A

    公开(公告)日:2023-08-25

    申请号:CN202310629849.4

    申请日:2023-05-31

    Abstract: 本发明公开了一种面向多模态多任务学习的轻量化适配网络学习方法,包括如下步骤:1、构建下游任务数据集,2、构建深度自注意力网络模型,3、预训练权重裁剪,4、构建任务适配器,5、适配预训练模型,6、设计渐进式引导蒸馏训练并训练模型。该方法对预训练模型部分权重进行裁剪,并采用高效的任务适配器与之适配。本发明提出了一种渐进式引导蒸馏训练算法以更好地填补预训练任务和下游任务之间的差异,保证了模型在下游任务上的性能。本发明可以与任何现有的基于深度自注意力网络的预训练模型相结合,通过训练得到在下游任务性能、模型部署时总存储开销、模型推理时计算开销和模型配置灵活性等方面均存在优越性的适配器模型。

    基于先验知识启发大语言模型的图像推理问答方法

    公开(公告)号:CN116595151A

    公开(公告)日:2023-08-15

    申请号:CN202310744506.2

    申请日:2023-06-25

    Abstract: 本发明提出一种基于先验知识启发大语言模型的图像推理问答方法。本发明其核心在于通过在大语言模型上游引入一个可学习的、任务相关的视觉问答小模型,更好地激发大模型的潜力以解决视觉知识推理任务。本方法首次提出基于先验知识启发的方法,通过在大语言模型上游引入一个可学习的、任务相关的视觉问答小模型,构建先验知识启发向大语言模型输入更多图片的细节和关键信息,充分激发大语言模型的潜能,进而得到更好的结果,相比于先前的基于大语言模型的方法性能有了很大提升。

    一种文段问答框架下跨模态的时域视频定位方法

    公开(公告)号:CN114925232B

    公开(公告)日:2023-04-07

    申请号:CN202210606624.2

    申请日:2022-05-31

    Inventor: 俞俊 郭宇轩 彭玺

    Abstract: 本发明公开了一种文段问答框架下跨模态的时域视频定位方法。首先,把文本数据和视频数据的特征送入相同的编码器进行初步提取,并映射至相同维度。再对文本特征进行自动分割,将一些较长的句子分割为语义完整的短句,使之能与视觉特征进行更充分的融合。然后,将分割后的句子特征与视觉特征进行基于注意力机制的全局‑局部的跨模态融合,得到融合特征。其次,将融合特征视为文段问答框架中的文章,引入上下文‑查询注意力机制再次进行特征融合。最后,将最终的特征送入条件文段预测器中得到匹配的时间片段。本发明通过优化参数设置,利用适当的训练技巧,实现了更高准确率的时域视频定位方法。

    一种基于用户历史和特征因子化的个性化套装推荐方法

    公开(公告)号:CN115146170A

    公开(公告)日:2022-10-04

    申请号:CN202210828067.9

    申请日:2022-07-13

    Inventor: 谭敏 裘钱涞 俞俊

    Abstract: 本发明提供了一种基于用户历史和特征因子化的个性化套装推荐方法。首先提取商品视觉特征,以用户嵌入向量得到用户基本表征后,通过因子化方式将商品特征和用户特征投影到多个隐式空间中,学习用户对于套装不同方面的兴趣,使用特征高阶组合和加权池化对商品特征进行聚合得到套装特征,构造用户历史行为学习用户历史表征,接着聚合用户嵌入向量和用户历史表征得到用户表征,并从套装内商品兼容性和套装与用户相关度两方面度量用户与套装的匹配得分。本发明通过对套装特征和用户特征进行因子化,从多个隐式空间中度量用户与套装之间的相关性,使推荐结果更能展现用户对于套装某些方面的特征的兴趣。

    一种姿态和纹理引导的时尚服装设计合成方法

    公开(公告)号:CN113393550B

    公开(公告)日:2022-09-20

    申请号:CN202110660701.8

    申请日:2021-06-15

    Inventor: 顾晓玲 俞俊 黄洁

    Abstract: 本发明公开了一种姿态和纹理引导的时尚服装设计合成的方法。本发明步骤:1、借助现有的时尚数据集,收集任务的数据,并对数据进行预处理,构建时尚图像、姿态信息、语义信息数据组;2、以生成自然准确的时尚图像为目标,构建两阶段生成模型;生成模型包括语义布局生成网络和纹理生成网络,实现纹理有效转移,生成多样性的时尚图像;3、在最小化对抗损失、交叉熵损失、像素级损失、感知损失及风格损失下,利用收集到的数据组训练语义布局生成网络和纹理转移网络;4、通过反向传播算法对生成模型中的网络参数进行训练,直至整个模型收敛,生成对应的时尚图像。本发明在Fashion‑Gen数据集上进行了实验,在定量和定性上都取得了很好的结果。

    一种基于动态实例交互头的稀疏时序动作检测方法

    公开(公告)号:CN114998989A

    公开(公告)日:2022-09-02

    申请号:CN202210579421.9

    申请日:2022-05-25

    Abstract: 本发明公开了一种基于动态实例交互头的稀疏时序动作检测方法。本发明使用基于查询的方法,初始化N个提案特征和提案框,解决了锚框的复杂性问题。本发明还引入了基于时序特征金字塔的动态实例交互头模块,使用时序特征金字塔可以对不同尺度的行为都能进行较好的预测,解决由于每个行为时间跨度不同对实验结果造成的影响;动态实例交互头模块仅仅将提案特征与局部特征进行稀疏交互,就可以很好的学习有价值的信息,大大减少了计算量。最后,使用基于集合预测损失的最佳二分匹配,可以一对一的进行标签匹配,而且最后仅仅输出与初始提案框相等数量的N个候选框,在计算性能之前不用使用非极大值抑制后处理,可以直接作为预测框进行输出。

    基于双向可切分深度自注意力网络的轻量化视觉问答方法

    公开(公告)号:CN114647752A

    公开(公告)日:2022-06-21

    申请号:CN202210369535.0

    申请日:2022-04-08

    Inventor: 余宙 金子添 俞俊

    Abstract: 本发明公开了一种基于双向可切分深度自注意力网络的轻量化视觉问答方法,提出了一种双向可切分深度自注意力网络,基于设计的宽度、深度均可切分的双向策略,并采用“深而窄”的过滤原则进一步挑选合理的子模型,配合提出的自蒸馏算法,使得网络中的各个子模型都具备视觉问答任务的应用能力。此双向可切分的深度自注意力模型可以根据当下的计算资源动态选择合适的子模型预测答案,取得精度和时延之间的平衡,在预测答案的准确率得到保证的同时使得用户拥有良好的体验感。

Patent Agency Ranking