一种基于稳定扩散模型的图像分层生成系统、方法及装置

    公开(公告)号:CN118115624A

    公开(公告)日:2024-05-31

    申请号:CN202410536662.4

    申请日:2024-04-30

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于稳定扩散模型的图像分层生成系统、方法及装置,包含三个模块:用户输入模块:接受和处理用户输入;粗遮罩提取模块:接受用户输入模块处理后的输入文本生成描述的图像,以及图像中每个需要分层物体的粗遮罩;图像分层重绘模块:修复粗遮罩提取模块处理后的文本描述图像以及粗遮罩生成精细遮罩以及图片的多层分层结果。本发明能够让扩散模型拥有多层生成的能力,解决了扩散模型无法实现多层图片生成的问题,提升了扩散模型在专业艺术、影视等需要严谨图像细节领域的可应用性。

    一种大语言模型的训练方法、装置、设备及存储介质

    公开(公告)号:CN119066155A

    公开(公告)日:2024-12-03

    申请号:CN202411570038.2

    申请日:2024-11-06

    Applicant: 浙江大学

    Abstract: 本发明提供了一种大语言模型的训练方法、装置、设备及存储介质,属于自然语言处理技术领域,包括:获取大语言模型的原始训练数据集,基于原始训练数据集中的问题在知识库中进行检索,得到问题的多个相关文档和不相关文档;预测问题在多个相关文档中的答案和对应的概率,将预测的概率与预设阈值进行比较,若目标答案对应的预测概率大于或者等于预设阈值,则将目标答案所在的文档作为目标文档;基于目标文档构建问答样本,基于不相关文档构建拒答样本;基于问答样本和拒答样本对大语言模型进行训练。该方法能够降低大语言模型产生幻觉、生成无关内容的风险,提高大语言模型的准确率。

    一种开放域问答方法、装置、设备及存储介质

    公开(公告)号:CN119066183B

    公开(公告)日:2025-05-13

    申请号:CN202411570021.7

    申请日:2024-11-06

    Applicant: 浙江大学

    Abstract: 本发明提供了一种开放域问答方法、装置、设备及存储介质,属于自然语言处理技术领域,包括:获取待查询问题,在知识库中检索待查询问题的相关文档;将待查询问题和相关文档输入预训练的问答模型,生成待查询问题的候选答案;验证候选答案的正确性,若候选答案未通过验证,则基于检索得到的相关文档和待查询问题生成关于候选答案中缺失内容的反馈;基于候选答案中缺失内容的反馈在知识库中再次检索待查询问题的相关文档;迭代生成候选答案、验证和再次检索的过程,直至候选答案通过验证。该方法能够提高大语言模型对于复杂问题的回答准确性。

    一种基于自举式生成的图表反事实问答构建方法及系统

    公开(公告)号:CN119577102A

    公开(公告)日:2025-03-07

    申请号:CN202510143753.6

    申请日:2025-02-10

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于自举式生成的图表反事实问答构建方法及系统,包括提取图表图像中的视觉描述和元数据;基于图表视觉描述文本,通过大语言模型的少样本提示方法生成与图表视觉描述文本相对应的初始反事实假设提案,以自举的方式生成达到数量要求的提案储备;基于图表元数据和初始问题答案对,对假设提案储备采样出反事实假设提案样本,通过大语言模型的少样本提示方法生成反事实问题答案对;在收集达到数量要求的反事实问题答案对后,核查反事实问题答案对的文本和数值。本发明能够构建具有反事实逻辑的图表问答数据集,能为视觉问答模型的性能评测生成具有挑战性的测试集,能为视觉文本模型的训练提供具有多样性的训练语料。

    一种基于自举式生成的图表反事实问答构建方法及系统

    公开(公告)号:CN119577102B

    公开(公告)日:2025-04-29

    申请号:CN202510143753.6

    申请日:2025-02-10

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于自举式生成的图表反事实问答构建方法及系统,包括提取图表图像中的视觉描述和元数据;基于图表视觉描述文本,通过大语言模型的少样本提示方法生成与图表视觉描述文本相对应的初始反事实假设提案,以自举的方式生成达到数量要求的提案储备;基于图表元数据和初始问题答案对,对假设提案储备采样出反事实假设提案样本,通过大语言模型的少样本提示方法生成反事实问题答案对;在收集达到数量要求的反事实问题答案对后,核查反事实问题答案对的文本和数值。本发明能够构建具有反事实逻辑的图表问答数据集,能为视觉问答模型的性能评测生成具有挑战性的测试集,能为视觉文本模型的训练提供具有多样性的训练语料。

    一种视觉问答数据增强方法、装置、设备及存储介质

    公开(公告)号:CN119128118A

    公开(公告)日:2024-12-13

    申请号:CN202411612390.8

    申请日:2024-11-13

    Applicant: 浙江大学

    Abstract: 本发明提供了一种视觉问答数据增强方法、装置、设备及存储介质,属于人工智能技术领域,包括获取视觉问答任务的原始数据集;提取原始问题中用于描述原始图像中物体的目标名词,将目标名词输入大语言模型,通过大语言模型生成多个与目标名词相关的新问答对,将新问答对和原始问答对进行合并得到增强后的文本提示;根据数据增强后的文本提示,对原始图像进行目标检测,得到文本提示对应物体的边界框,基于边界框对图像进行分割提取,得到分割掩码图像;根据分割掩码图像及数据增强后的文本提示对原始图像进行重绘,得到增强后的图像。该方法能够得到更高质量的视觉问答数据,从而提高视觉问答模型的准确性,减少VQA中的语言偏差问题。

    一种开放域问答方法、装置、设备及存储介质

    公开(公告)号:CN119066183A

    公开(公告)日:2024-12-03

    申请号:CN202411570021.7

    申请日:2024-11-06

    Applicant: 浙江大学

    Abstract: 本发明提供了一种开放域问答方法、装置、设备及存储介质,属于自然语言处理技术领域,包括:获取待查询问题,在知识库中检索待查询问题的相关文档;将待查询问题和相关文档输入预训练的问答模型,生成待查询问题的候选答案;验证候选答案的正确性,若候选答案未通过验证,则基于检索得到的相关文档和待查询问题生成关于候选答案中缺失内容的反馈;基于候选答案中缺失内容的反馈在知识库中再次检索待查询问题的相关文档;迭代生成候选答案、验证和再次检索的过程,直至候选答案通过验证。该方法能够提高大语言模型对于复杂问题的回答准确性。

    基于共识图表征推理的定位自然图像字幕生成方法和装置

    公开(公告)号:CN111741236A

    公开(公告)日:2020-10-02

    申请号:CN202010857184.9

    申请日:2020-08-24

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于共识图表征推理的定位自然图像字幕生成方法和装置。该方法包括如下步骤:S1:以预先提取的视觉场景图及文本场景图作为先验知识,通过结构对抗学习方法从图先验中进行演绎与推理,生成作为共识知识的共识图表征;S2:基于视觉空间图与共识图表征,结合软注意力机制动态选取与上下文环境匹配程度最高的语义信息生成字幕的文本描述;S3:在S2中生成文本描述的同时,根据当前语义环境在视觉空间中实时定位文本中对象单词的空间区域。本发明可利用视觉模态先验与语言模态先验所推理得到的共识表征来维护多模态之间的语义一致性,从而大幅度减少当前自然图像字幕生成模型中存在的对象幻觉问题,并获取更优的字幕生成与对象定位性能。

Patent Agency Ranking