-
公开(公告)号:CN107480206A
公开(公告)日:2017-12-15
申请号:CN201710611041.8
申请日:2017-07-25
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于多模态低秩双线性池化的图像内容问答方法。本发明包括以下步骤:1、对图像和以自然语言描述的问题,答案文本进行数据预处理,2、多模态低秩双线性池化模型,进行特征融合。3、基于MFB池化模型和协同关注点模型的神经网络结构。4、模型训练,利用反向传播算法训练神经网络参数。本发明提出一种针对图像问答的神经网络模型,特别是提出一种图像问答领域中对图像-问题的跨媒体数据进行统一建模的方法,以及在图像和问题细粒度特征上学习“协同关注点”进行建模表达的网络结构,并且获得了目前在图像问答领域中的最好效果。
-
公开(公告)号:CN103984527B
公开(公告)日:2017-12-15
申请号:CN201410129845.0
申请日:2014-04-01
Applicant: 杭州电子科技大学
IPC: G06F9/38
Abstract: 本发明公开了一种优化稀疏矩阵向量乘提升不可压缩管流模拟效率的方法。本发明方法采用的QCSR存储结构结合四叉树结构和CSR存储结构的优势对稀疏矩阵进行递归式分解和重排列实现稀疏矩阵的存储,使得稀疏矩阵向量乘运行过程对矩阵形式更具有普适性,尤其适用于总体稀疏但局部存在较多稠密子矩阵的矩阵。本发明方法在CPU/GPU异构并行系统上通过线程映射优化、数据存取优化、数据传输优化和数据复用优化四个策略实现了基于QCSR存储结构的稀疏矩阵向量乘。本发明所公开的方法可在稀疏矩阵向量乘数值计算过程提高数据局部性和缓存命中率,取得了更好的计算加速和整体加速效果,进而提升了不可压缩管流模拟效率。
-
公开(公告)号:CN104899921A
公开(公告)日:2015-09-09
申请号:CN201510305802.8
申请日:2015-06-04
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于多层感知网络的单视角视频人体三维姿态恢复的方法。本发明包括以下步骤:1、采用基于超图学习的多模态低秩矩阵表示获得图像的视觉特征;2、通过训练自编码模型获得图像与三维姿态的内在特征;3、采用无监督流形对齐技术,将图像与三维姿态的内在特征投影到一个共享的低维空间中;4、训练神经网络用于学习图像与三维姿态之间的映射关系;5、利用自编码模型,无监督流形对齐模型及神经网络模型,构建五层感知器网络,并微调五层网络的参数;6、以图像的多种视觉特征作为输入,得到的输出即为对应三维姿态。本发明不仅提高了三维姿态恢复的质量,而且缩短了姿态恢复的时间,可达到实时姿态恢复的要求。
-
公开(公告)号:CN114049314B
公开(公告)日:2025-05-13
申请号:CN202111262731.X
申请日:2021-10-28
Applicant: 杭州电子科技大学
IPC: G06V10/26 , G06V10/44 , G06V10/77 , G06V10/764 , G06V10/82 , G06T7/00 , G06N3/045 , G06N3/0464 , G06N3/0455 , G06N3/0442 , G06N3/084 , G06N3/048
Abstract: 本发明公开了一种基于特征重排和门控轴向注意力的医学图像分割方法。首先,把所有的原始图像和真实分割图像统一为相同大小的尺寸,再对调整后的训练图像进行随机的水平/垂直翻转,提高了样本的多样性。其次,采用特征重排进行下采样,更好的保留了原始图像的特征,采用逆向特征重排进行上采样,提高的网络的解码能力。然后,协同训练全局分支与局部分支,分别提取图像的全局信息交互与局部信息交互。最后,合并两部分信息来对图像进行分割。同时,通过优化参数设置,利用适当的训练技巧,实现了更精确的医学图像分割效果。
-
公开(公告)号:CN114036553B
公开(公告)日:2025-05-13
申请号:CN202111261508.3
申请日:2021-10-28
Applicant: 杭州电子科技大学
IPC: G06F21/62 , G06V40/10 , G06V20/52 , G06V10/762 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/0475 , G06N3/045 , G06N3/084 , G06N3/094 , G06N3/048
Abstract: 本发明提出了一种结合k匿名的行人身份隐私保护方法。本发明通过交叉身份训练策略,生成更高质量的匿名图像;最后通过设计的k匿名隐私保护方法,保留行人图像数据隐私的同时也保留了数据的可用性;具体步骤:步骤1:代理数据集采集与图像预处理;步骤2:建立k匿名机制;步骤3:构建匿名行人生成对抗网络;步骤4:匿名行人生成目标函数;步骤5:采用公开数据集进行训练及测试,输出最终结果。本发明既保留了行人身份隐私又保留了属性。在匿名行人生成方面,一方面本方法结合了将属性以及目标背景融合到行人生成过程中,另一方面本方法提出交叉身份训练策略,提高了生成图像的质量。
-
公开(公告)号:CN114299578B
公开(公告)日:2025-05-02
申请号:CN202111624659.0
申请日:2021-12-28
Applicant: 杭州电子科技大学
IPC: G06V40/16 , G06V10/82 , G06N3/0464 , G06N3/0475 , G06N3/045 , G06N3/048 , G06N3/084 , G06N3/094 , G06N3/09
Abstract: 本发明公开了一种基于面部情绪分析的动态人脸生成方法,首先进行数据预处理,检测图像中的人脸并对齐;然后构建面部情绪分析模型,通过预处理后的人脸图像完成面部情绪分析模型的训练;最后生成动态人脸视频。本发明通过面部情绪的分析,来引导人脸的生成,为了保证面部情绪分析在真实场景的准确率,为每个样本引入了重要性权重的计算,通过将低重要性权重的样本进行重新标记,解决数据集中噪声标签的问题,使用了一种隐式语义数据增强算法,巧妙地利用深度神经网络长于学习线性化表征的性质,在特征空间完成语义扩增过程,并且几乎不引入任何额外计算或时间开销,提高了情绪分析的性能,增加了人脸生成的合理性。
-
公开(公告)号:CN119202149A
公开(公告)日:2024-12-27
申请号:CN202410943597.7
申请日:2024-07-15
Applicant: 杭州电子科技大学
IPC: G06F16/332 , G06V20/40 , G06N5/04 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于大模型智能体多轮推理的长视频问答方法,根据问题和选项确定初始的关键帧序列,并生成选项的置信度分数,置信度分数用于提示大语言模型在输入信息不充分情况下依然能得到相对可靠的答案。定位的关键帧以网格化拼接的形式,和文本上下文一起输入大模型智能体推理预测答案。大模型智能体基于当前提供的信息和答案预测过程进行评估,决定是否需要进行下一轮次的迭代来补充缺失的视觉信息。自适应的多轮推理问答考虑到了不同类别的问题所需的视频帧数量的不同,有效提高了视频问答的准确率和质量。
-
公开(公告)号:CN115146170B
公开(公告)日:2024-11-29
申请号:CN202210828067.9
申请日:2022-07-13
Applicant: 杭州电子科技大学
IPC: G06F16/9535 , G06F16/9536 , G06F16/9538 , G06Q30/0601
Abstract: 本发明提供了一种基于用户历史和特征因子化的个性化套装推荐方法。首先提取商品视觉特征,以用户嵌入向量得到用户基本表征后,通过因子化方式将商品特征和用户特征投影到多个隐式空间中,学习用户对于套装不同方面的兴趣,使用特征高阶组合和加权池化对商品特征进行聚合得到套装特征,构造用户历史行为学习用户历史表征,接着聚合用户嵌入向量和用户历史表征得到用户表征,并从套装内商品兼容性和套装与用户相关度两方面度量用户与套装的匹配得分。本发明通过对套装特征和用户特征进行因子化,从多个隐式空间中度量用户与套装之间的相关性,使推荐结果更能展现用户对于套装某些方面的特征的兴趣。
-
公开(公告)号:CN118964526A
公开(公告)日:2024-11-15
申请号:CN202411146632.9
申请日:2024-08-20
Applicant: 杭州电子科技大学
IPC: G06F16/33 , G06F16/36 , G06F16/9536 , G06N3/045 , G06N3/08
Abstract: 本发明涉及一种事件知识图谱构建和增强的新闻稿件AI生成方法,包括以下步骤:步骤一:通过采集、分析新闻素材,构建事件知识图谱;步骤二:事件知识图谱增强的新闻稿件生成模型的构建;步骤三:事件知识图谱增强的新闻稿件AI生成,相较于传统基于模板或规则的写作辅助技术,本发明不仅考虑了新闻事件的连续性和不同主体间的关联性,而且注重在新闻报道场景下的事实信息准确性。本发明通过自动化流程减少了人工编辑的依赖,提高了新闻生产效率,同时保证了新闻内容的丰富性和准确性。
-
公开(公告)号:CN118628611A
公开(公告)日:2024-09-10
申请号:CN202410772782.4
申请日:2024-06-17
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于交叉注意力重分配的多实例可控图像生成方法,首先构建ChatGPT代码提示链CoC。然后在ChatGPT中使用代码提示链,生成符合多实例文本提示生成任务中所需要的布局。然后在扩散模型每一个时间步中获得交叉注意力图,并基于布局信息,获得两个引导损失。最后使用损失引导修改当前时间步上的预测噪声,迭代优化的噪声图像最终通过解码器得到生成的多实例可控图像。本发明缓解实体缺失、属性互换、属性泄露、空间布局错误等问题的出现,在图像编辑、个性化生成和虚拟试衣等领域中实现更准确、高质量的图像生成和修改,为用户提供更符合个性化需求的服务。
-
-
-
-
-
-
-
-
-