-
公开(公告)号:CN114647752B
公开(公告)日:2025-04-25
申请号:CN202210369535.0
申请日:2022-04-08
Applicant: 杭州电子科技大学
IPC: G06F16/532 , G06F16/535 , G06F16/9032 , G06F16/9035 , G06F40/30 , G06N3/0464 , G06N3/08 , G06N3/045
Abstract: 本发明公开了一种基于双向可切分深度自注意力网络的轻量化视觉问答方法,提出了一种双向可切分深度自注意力网络,基于设计的宽度、深度均可切分的双向策略,并采用“深而窄”的过滤原则进一步挑选合理的子模型,配合提出的自蒸馏算法,使得网络中的各个子模型都具备视觉问答任务的应用能力。此双向可切分的深度自注意力模型可以根据当下的计算资源动态选择合适的子模型预测答案,取得精度和时延之间的平衡,在预测答案的准确率得到保证的同时使得用户拥有良好的体验感。
-
公开(公告)号:CN119670878A
公开(公告)日:2025-03-21
申请号:CN202411505344.8
申请日:2024-10-28
Applicant: 杭州电子科技大学
IPC: G06N5/04 , G06F16/332 , G06F16/335 , G06F16/532 , G06F16/535 , G06F40/35
Abstract: 本发明涉及一种基于思维链引导的多模态大模型自增强学习方法,本发明其核心在于通过模型自生成的思维链迭代的微调模型,低成本地解决多模态模型复杂推理能力差的问题。本方法首次提出基于思维链引导的多模态大模型自增强学习方法,通过现有视觉推理问答数据集,引导多模态模型生成准确的思维链,从而构建高质量的复杂推理微调数据集,迭代地增强多模态模型的复杂推理能力。
-
公开(公告)号:CN118608690A
公开(公告)日:2024-09-06
申请号:CN202410722804.6
申请日:2024-06-05
Applicant: 杭州电子科技大学
IPC: G06T17/00 , G06V10/774 , G06V10/776 , G06V10/82 , G06N3/08 , G06T7/11 , G06N3/0464 , G06N3/09 , G06N3/0475 , G06T7/00
Abstract: 本发明公开了一种基于缺牙检测和概率扩散模型的缺牙CBCT图像牙齿生成方法。本发明采用人工智能算法对输入的CBCT图像进行缺牙区域的自动识别,确保精准定位无牙区域。随后对识别出的缺牙区域进行裁剪,运用改进的概率扩散模型进行牙齿图像生成,该模型能够生成高分辨率、形态准确的牙齿图像,有效补全缺牙区域。最后将生成的牙齿图像根据原始裁剪坐标精确移植回原图像,形成完整的CBCT图像。本发明适用于种植体植入位置的手术规划,还能作为义齿建模的参考,帮助患者更好地了解术前预期效果。本发明通过缺牙检测和概率扩散模型的协同工作,实现CBCT图像中缺牙区域的自动检测和牙齿图像的快速生成,大大减少了人为干预和手动操作,提高了工作效率和准确性。
-
公开(公告)号:CN118590598A
公开(公告)日:2024-09-03
申请号:CN202410806011.2
申请日:2024-06-21
Applicant: 杭州电子科技大学
IPC: H04N5/278 , H04N21/488 , G06N3/0442 , G06N3/045 , G06N3/08
Abstract: 本发明公开了一种基于分层语义表示和聚合网络的视频字幕生成方法,该方法首先对视频进行预处理,获取视频特征。其次构建视频字幕分层语义表示和聚合网络整体架构。然后根据视频特征,在构建的视频字幕分层语义表示和聚合网络中生成字幕。最后训练视频字幕分层语义表示和聚合网络,优化网络参数。本发明显著提高了生成字幕中动词的精度和多样性。
-
公开(公告)号:CN118552663A
公开(公告)日:2024-08-27
申请号:CN202410601732.X
申请日:2024-05-15
Applicant: 杭州电子科技大学
IPC: G06T11/60 , G06N3/0455 , G06N3/084
Abstract: 本发明公开了基于共享注意力的多模态人物图像生成方法,该方法首先对现有的多模态人物数据集进行预处理,构建人物图像、人物分割图、文本信息、语义信息数据组。其次构建包含基于小波变换的离散变分自编码器模型和基于共享注意力的多模态条件扩散模型,通过输入的数据组,得到生成的人物图像。最后利用反向传播算法多模态人物图像生成模型参数,直至收敛。本发明生成高保真且多样性的全身人物图像,能够有效地满足输入的多模态控制条件,对于推动计算机视觉领域中的人物图像生成具有重要意义。
-
公开(公告)号:CN118505652A
公开(公告)日:2024-08-16
申请号:CN202410651059.0
申请日:2024-05-24
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于提示工程与思维链推理技术的全景片龋齿分割方法,该方法首先获取牙齿全景片结构化分割数据,并进行预处理,得到思维链数据。其次构建全景片龋齿分割网络模型,包括顺序组建的图像编码器、提示编码器、掩码解码器。然后将思维链数据输入全景片龋齿分割网络模型,得到分割结果,设计损失函数,进行反向训练,优化全景片龋齿分割网络模型参数。最后使用训练后的全景片龋齿分割网络模型预测全景片龋齿分割结果。本发明将复杂任务解耦,使用提示工程和思维链推理技术使模型分步推理,引导视觉分割模型进行精确分割。
-
公开(公告)号:CN112989927B
公开(公告)日:2024-03-05
申请号:CN202110151201.1
申请日:2021-02-03
Applicant: 杭州电子科技大学
IPC: G06V20/40 , G06V10/774 , G06V10/80
Abstract: 本发明公开了一种基于自监督预训练的场景图生成方法。本发明步骤如下:1、数据预处理及数据集的划分,2、使用训练好的目标检测网络对图像提取特征,3、构建目标的空间特征,4、构建自监督预训练网络模型,5、训练自监督预训练网络模型,6、构建自监督预训练和微调模型的场景图生成模型,7、训练场景图生成模型,8、网络预测值计算。本发明尤其是用于同时建模目标上下文和关系上下文在场景图生成的任务上取得了显著性的提升效果,超越了该任务上的大部分主流方法。并且本发明的基于自监督预训练的场景图生成方法在其他跨模态相关领域中如图像内容问答和视觉关系检测中也具有十分重要的应用价值和巨大的潜力。
-
公开(公告)号:CN113536916B
公开(公告)日:2024-02-13
申请号:CN202110647035.4
申请日:2021-06-10
Applicant: 杭州电子科技大学
IPC: G06V40/20 , G06V10/40 , G06V10/764 , G06V10/80 , G06V10/84 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于骨骼信息的分组混淆图卷积动作识别方法。本发明采用了一种分组的思想,在进行空间操作的时候,我们对动态图进行分组来提取不同图结构的信息,获得丰富的行为信息。同时分组的形式还可以降低模型的参数量。然后在时序上进行操作的时候,采用深度可分离卷积的形式来降低参数和计算量。由于在空间和时序上都是采用分组的形式,所以需要对不同分组的信息进行融合,以达到信息的流通。结果显示本方法在保持高性能的情况下,参数量和计算量有着大幅的减小,证明了本方法有效性。
-
公开(公告)号:CN112633288B
公开(公告)日:2024-02-13
申请号:CN202011593350.5
申请日:2020-12-29
Applicant: 杭州电子科技大学
IPC: G06V10/26 , G06V10/32 , G06V40/16 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0475 , G06N3/094
Abstract: 本发明公开了一种基于绘画笔触指导的人脸素描生成方法。本发明步骤如下:步骤(1)数据预处理,将所有数据集的图片经过调整尺寸和裁剪的操作缩放到统一大小;步骤(2)笔触分类器模型的构建及预训练,自定义笔触标签,构建笔触分类器网络模型,完成模型的预训练,保留训练好的模型参数;步骤(3)生成对抗网络模型的构建,分别构建生成器和判别器两个网络模型;步骤(4)生成对抗网络模型的训练,定义损失函数,训练生成对抗网络模型;步骤(5)人脸素描的生成及质量评价。本发明提出了利用笔触分类器辅助指导人脸素描生成的方法,并完成了人脸素描的高质量生成。
-
公开(公告)号:CN112598662B
公开(公告)日:2024-02-13
申请号:CN202011609603.3
申请日:2020-12-30
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于隐藏信息学习的图像美学描述生成的方法。本发明步骤如下:(1)模型预处理。采用目标检测网络Encv和Transformer网络Enct分别从图像和文本评论中提取多尺度特征表达;(2)基于对抗学习的跨模态一致性特征提取。利用对抗学习思想,构建特征模态判别器;(3)多因素控制的美学评论生成。以美学因素标记作为辅助信息,利用美学因素编码器Encf提取美学因素标记对应的语义特征,并将该语义特征输入到评论解码器中,生成文本评论;(4)基于多任务约束判别网络,实现多尺度图像特征和多尺度文本特征的有效性和生成的文本评论的合理性;(5)基于隐藏信息学习的对抗损失。本发明生成文本与输入图像的美学质量相匹配,从而提升模型的鲁棒性和精确性。
-
-
-
-
-
-
-
-
-