基于扩散模型的图片数据集扩充方法、介质及设备

    公开(公告)号:CN116883545A

    公开(公告)日:2023-10-13

    申请号:CN202310827912.5

    申请日:2023-07-06

    Applicant: 浙江大学

    Abstract: 本发明提供了一种基于扩散模型的图片数据集扩充方法、介质及设备。该方法包括:S1:针对原始图片数据集中的图像,设计对应的文本描述;S2:构建单词‑图像重映射模块嵌入预训练过的扩散模型,使用原始图片和对应文本描述作为输入数据对,训练单词‑图像重映射模块,构建图片到单词的重新映射;S3:固定扩散模型与其中的单词‑图像重映射模块,通过文本描述中单词的重新组合和拼接,构建新的文本描述。通过使用该文本描述与不同的随机噪声,通过扩散模型生成不同于数据集的图片,从而完成对原始图片数据集的扩充。

    跨领域无源域数据的知识蒸馏方法、系统、介质及设备

    公开(公告)号:CN118298279A

    公开(公告)日:2024-07-05

    申请号:CN202410468579.8

    申请日:2024-04-18

    Abstract: 本发明公开了一种跨领域无源域数据的知识蒸馏方法、系统、介质及设备,包括:利用经过预训练教师模型先训练图像生成器再训练图像编码器同时预热学生模型,并利用各自的损失函数单独进行参数更新;利用图像生成器、图像编码器以及教师模型在学生域训练数据集上训练遮罩网络,再在学生域训练数据集上训练学生模型,通过阶段因子调节域特定信息损失和跨域知识蒸馏损失的权重;将待预测图像输入到训练好的学生模型中,得到待预测图像的分类标签。本发明通过无数据知识蒸馏网络、遮罩学习网络、课程学习网络,解决了在仅有目标域(学生域)数据而缺少源域(教师域)数据且源域和目标域存在较大偏移情况下,迁移教师模型知识的问题。

    基于文本匹配和孪生网络的多模态敦煌残卷缀合方法

    公开(公告)号:CN117953504A

    公开(公告)日:2024-04-30

    申请号:CN202410163630.4

    申请日:2024-02-05

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于文本匹配和孪生网络的多模态敦煌残卷缀合方法,具体过程为:使用二值化和闭合操作,提取待缀合的原始敦煌残卷图像蒙版和轮廓,利用训练好的自监督孪生网络进行原始敦煌残卷图像的配对;利用基于文本的定位方法对原始敦煌残卷图像进行光学字符识别,提取文本内容以计算原始敦煌残卷图像的候选位置;使用多模态流程,结合文本匹配和轮廓匹配提高匹配的准确率;使用图搜索的思想,对原始敦煌残卷图像进行全局拼合。本发明能够应用在敦煌残卷缀合场景,以及古代语言学和社会研究领域,为古代语言学和社会研究领域研究提高效率。

    基于反事实用户行为序列生成的序列推荐方法

    公开(公告)号:CN113609388B

    公开(公告)日:2024-02-06

    申请号:CN202110851097.7

    申请日:2021-07-27

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于反事实用户行为序列生成的序列推荐方法。该方法的基本流程如下:首先使用物品相似度识别用户序列中物品层级和兴趣层级的重要概念和非重要概念;然后使用概念重要性识别结果和数据增强手段生成反事实正负用户序列;最后使用对比学习方法对反事实正负用户‑用户、用户‑物品进行对比表征学习,以学习得到的序列推荐模型进行实际的序列推荐。本发明将反事实样本生成、对比学习应用于序列个性化推荐。相比一般序列推荐方法,本发明通过建模反事实用户序列空间,能够缓解用户点击行为稀疏问题;通过识别物品层级和兴趣层级的重要概念和非重要概念,并以此进行用户表征学习,能够学习更加准确可靠的用户表征。

    基于反事实用户行为序列生成的序列推荐方法

    公开(公告)号:CN113609388A

    公开(公告)日:2021-11-05

    申请号:CN202110851097.7

    申请日:2021-07-27

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于反事实用户行为序列生成的序列推荐方法。该方法的基本流程如下:首先使用物品相似度识别用户序列中物品层级和兴趣层级的重要概念和非重要概念;然后使用概念重要性识别结果和数据增强手段生成反事实正负用户序列;最后使用对比学习方法对反事实正负用户‑用户、用户‑物品进行对比表征学习,以学习得到的序列推荐模型进行实际的序列推荐。本发明将反事实样本生成、对比学习应用于序列个性化推荐。相比一般序列推荐方法,本发明通过建模反事实用户序列空间,能够缓解用户点击行为稀疏问题;通过识别物品层级和兴趣层级的重要概念和非重要概念,并以此进行用户表征学习,能够学习更加准确可靠的用户表征。

    基于组合优化和多模态大模型的可缀合敦煌残片筛选方法

    公开(公告)号:CN118570540A

    公开(公告)日:2024-08-30

    申请号:CN202410707617.0

    申请日:2024-06-03

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于组合优化和多模态大模型的可缀合敦煌残片筛选方法,具体过程为:使用基于卷积神经网络的变体ResNet18的孪生神经网络,提取敦煌残片的特征向量,预测残片对的匹配程度分数,将匹配程度分数大于阈值的敦煌残片对构成无向图,使用融合了最优传输层的图神经网络进行可拼合小残片集合的筛选,并将可缀合的敦煌残片候选拼接集合和预定义的提示词输入多模态大语言模型来判断错误残片,在无向图中剔除错误残片对应的顶点和边,重新筛选得到可拼合的新的候选拼接集合。本发明能够应用在敦煌小残片缀合场景,以及古代语言学和社会研究领域,为古代语言学和社会研究领域研究提高效率。

    基于视觉的敦煌残卷缀合数据集构建及增强方法

    公开(公告)号:CN118037591A

    公开(公告)日:2024-05-14

    申请号:CN202410293546.4

    申请日:2024-03-14

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于视觉的敦煌残卷缀合数据集构建及增强方法,对由于相机拍摄尺寸受限从而对敦煌残卷图像切分拍摄的情况进行拼接,使其还原为长卷图像,对同一馆藏编号中对应多个碎片的情况进行手动切分,重新编号;对彩色碎片根据提供的标准色卡进行色彩矫正,对灰度碎片进行灰度值拉伸,对所有提供比例尺的碎片进行尺度归一化,保证所有碎片大小保持在同一尺度下;通过图像二值化方法提取预处理碎片的黑白掩膜,进而得到最外围边缘;通过传统几何变换法、基于边缘特点的局部随机法、仿真模拟撕碎法以及基于扩散模型的提示学习法进行数据增强。本发明实现数据预处理的全自动化,并借助各种数据增强方法,进一步提升数据集的鲁棒性和多样性。

    基于知识蒸馏和因果推理的推荐方法及系统

    公开(公告)号:CN115292587B

    公开(公告)日:2023-07-14

    申请号:CN202210837534.4

    申请日:2022-07-15

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于知识蒸馏和因果推理的推荐方法及系统。本发明中,首先把训练数据集中所有用户按照敏感属性的高低等分成若干个用户组。再利用所有用户的行为数据训练一个基础推荐模型,继而按照用户分组,利用每一组用户数据,对基础推荐模型进行微调,为每一组用户训练一个教师模型;最后利用所有用户的数据,借助因果推断中的前门调整方法,通过每个用户分组的教师模型获取多个中间表征作为中介,继而利用Batch内采样机制和注意力机制,进行多模型多样本信息聚合,并将聚合后的信息蒸馏到学生模型。本发明将因果知识蒸馏技术应用于项目推荐中,相比于普通推荐算法,引入因果建模可以有效提升用户的推荐服务公平性,缓解马太效应。

    基于知识蒸馏和因果推理的推荐方法及系统

    公开(公告)号:CN115292587A

    公开(公告)日:2022-11-04

    申请号:CN202210837534.4

    申请日:2022-07-15

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于知识蒸馏和因果推理的推荐方法及系统。本发明中,首先把训练数据集中所有用户按照敏感属性的高低等分成若干个用户组。再利用所有用户的行为数据训练一个基础推荐模型,继而按照用户分组,利用每一组用户数据,对基础推荐模型进行微调,为每一组用户训练一个教师模型;最后利用所有用户的数据,借助因果推断中的前门调整方法,通过每个用户分组的教师模型获取多个中间表征作为中介,继而利用Batch内采样机制和注意力机制,进行多模型多样本信息聚合,并将聚合后的信息蒸馏到学生模型。本发明将因果知识蒸馏技术应用于项目推荐中,相比于普通推荐算法,引入因果建模可以有效提升用户的推荐服务公平性,缓解马太效应。

Patent Agency Ranking