基于氨基酸知识图谱和主动学习的蛋白质改造方法

    公开(公告)号:CN114678060B

    公开(公告)日:2025-04-29

    申请号:CN202210121706.8

    申请日:2022-02-09

    Abstract: 本发明公开了一种基于氨基酸知识图谱和主动学习的蛋白质改造方法,包括:基于氨基酸的生化属性构建氨基酸知识图谱;结合氨基酸知识图谱对蛋白质数据进行数据增强,得到蛋白质增强数据并进行表示学习,得到第一蛋白质增强表示;利用预训练蛋白质模型对蛋白质数据,或蛋白质数据和氨基酸知识图谱进行表示学习,得到第二蛋白质增强表示;综合第一蛋白质增强表示和第二蛋白质增强表示,得到蛋白质增强表示;以蛋白质增强表示作为样本,采用主动学习从样本中筛选代表性样本并进行蛋白质性质的人工标注,利用人工标注的代表性样本训练蛋白质性质预测模型;利用蛋白质性质预测模型进行蛋白质改造,能够实现对蛋白质的快速准确改造。

    一种用于训练生物语言模型的方法及装置

    公开(公告)号:CN118898270A

    公开(公告)日:2024-11-05

    申请号:CN202411402745.0

    申请日:2024-10-09

    Applicant: 浙江大学

    Inventor: 张强 庄祥 陈华钧

    Abstract: 本发明提供一种用于训练生物语言模型的方法及装置;该方法包括:将每个生物分子对应的多模态数据进行特征提取处理,得到联合多模态特征;基于扩展词汇表对生物分子序列和联合多模态特征进行文本转换处理,输出文本特征;基于文本特征以及与生物分子对应的描述文本,根据自然语言请求进行有监督的语言模型训练,获得生物语言模型。由此,本实施例通过对生物分子对应的多模态数据进行特征提取,并在将获得的联合多模态特征以及生物分子序列转换成文本特征后进行模型训练,从而使得语言模型能够更全面地理解生物分子的结构和功能,进而解决了现有技术中自然语言和生物分子表示之间的语义冲突,提升了语言模型对生物分子的理解和设计能力。

    一种基于最大差异竞赛实现大语言模型样本的评估方法和装置

    公开(公告)号:CN118569213A

    公开(公告)日:2024-08-30

    申请号:CN202410530635.6

    申请日:2024-04-29

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于最大差异竞赛实现大语言模型样本的评估方法和装置,包括:指令池生成:从评价基准数据集中提取指令种子,并对指令种子进行演化生成指令池;指令样本选择:基于最大差异竞赛从指令池中选择使任意两个大语言模型的输出语义存在最大差异的指令作为指令样本;人类主观评价:指令样本在不同大语言模型的输出语义提交给人类评价者,并接收人类评价者通过三选一强制方式对输出语义的评价结果;评价排名:利用Elo评价系统整合所有评价结果,并转化为大语言模型指令样本的全球排名,这样可以克服机器评价偏见的同时,提升人类评估的效率和效果。

    一种基于本体指导的生成式事件抽取方法

    公开(公告)号:CN113987104B

    公开(公告)日:2024-06-21

    申请号:CN202111142014.3

    申请日:2021-09-28

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于本体指导的生成式事件抽取方法,包括:(1)构建事件本体知识库;(2)设计事件触发词提取模板和事件论元提取模板,分别将输入事件文本映射为第一输入序列,和将融入事件本体的输入事件文本映射为第二输入序列;(3)设计映射多单词标签到事件类型和/或角色类型的类标映射函数;(4)从事件本体知识库中提取与输入事件对应的事件本体后,按照事件触发词提取模板和事件论元提取模板构建第一输入序列和第二输入序列并输入事件提取模型;(5)事件提取模型根据类标映射函数和自身处理机制预测事件类型和角色类型,同时输出事件触发词跨度和事件论元跨度。该方法以实现在全监督和少样本场景下高效地抽取事件结构化知识。

    基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质

    公开(公告)号:CN113987209B

    公开(公告)日:2024-05-24

    申请号:CN202111300021.1

    申请日:2021-11-04

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质,首先构建与下游任务相关的前缀提示词和与从知识图谱中获得任务类别相关的标签词,然后利用前缀提示词的嵌入向量与输入文本的key值与value值拼接后进行self‑attention的计算,以使前缀提示词与输入文本紧密结合学习,同时综合所有标签词确定学习标签,即利用与任务类别相关的本体知识指导预训练语言模型的微调,这样使得微调的预训练语言模型对下游任务的预测效果更佳,提升了预训练语言模型的预测准确性。下游任务为情感分析任务和关系提取任务,采用相应方法得到的预训练语言模型提升的情感分析的准确性和关系提取的准确性。

    基于代码语言模型的生成式知识图谱构建方法和装置

    公开(公告)号:CN117033653A

    公开(公告)日:2023-11-10

    申请号:CN202310922506.7

    申请日:2023-07-26

    Applicant: 浙江大学

    Abstract: 本发明的目的是提供一种基于代码语言模型的生成式知识图谱构建方法和装置,包括以下步骤:设计结构感知的代码提示模板,代码提示模板包括schema提示模板和文本提示模板;给定包含输入文本和已知知识图谱的样本数据对,采用代码提示模板将样本数据对转换为代码提示,同时将仅包含测试文本的测试数据转换为代码提示;将代码提示的样本数据对和测试数据输入至大型代码语言模型,基于提示学习的方式生成编码三元组的代码,并将代码转换成结构三元组,基于结构三元组构建知识图谱。该方法和装置以代码生成的方式进行关系三元组抽取任务,通过显式地建模结构信息来增强预训练模型,提升模型的结构理解能力,进而提升关系三元组抽取的性能。

    基于图神经网络与对抗学习的多模态知识图谱补全方法和装置

    公开(公告)号:CN117009547A

    公开(公告)日:2023-11-07

    申请号:CN202310888462.0

    申请日:2023-07-19

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于图神经网络与对抗学习的多模态知识图谱补全方法和装置,包括:将多模态知识图谱中的三元组数据转化成异构图,同时对实体图像信息进行特征提取得到原实体模态特征;构建包含异构图卷积网络、模态特征生成器以及模态特征判别器的学习模型;采用对抗学习方式对学习模型进行训练后,利用模态特征生成器和模态特征判别器为每个实体生成实体模态特征;将实体模态特征和实体结构特征作为多模态知识图谱补全模型的初始化结果,并基于正负样本对比训练多模态知识图谱补全模型;使用多模态知识图谱补全模型中训练好的实体表示和关系表示以及定义的打分函数,为候选三元组进行打分,基于打分结果进行知识图谱补全,提高补全准确性。

    一种基于神经符号混合检索增强的知识获取方法

    公开(公告)号:CN115757820A

    公开(公告)日:2023-03-07

    申请号:CN202211393274.2

    申请日:2022-11-08

    Abstract: 本发明公开了一种基于神经符号混合检索增强的知识获取方法,包括:获取与事件抽取任务相关的事件语料库、语义图谱、符号化的知识库;根据语义图谱通过弱监督方式将事件语料库中每条语料文本与符号化的知识库中事件类型进行映射以构建检索知识库;进行针对目标文本的事件抽取时,为目标文本从检索知识库中检索相关的多条候选语料文本,依据候选语料文本与事件类型的映射关系为目标文本检索最优的事件类型,并提取最优事件类型对应的事件子图和最优语料文本作为提示知识;将提示知识转换成提示文本后与目标文本结合作为输入文本,利用语言模型对输入文本进行知识获取,得到基于目标文本的事件抽取结果。该方法增强知识获取准确性和效率。

    一种基于预训练语言模型的开放域科学知识发现方法和装置

    公开(公告)号:CN115658921A

    公开(公告)日:2023-01-31

    申请号:CN202211392326.4

    申请日:2022-11-08

    Abstract: 本发明公开了一种基于预训练语言模型的开放域科学知识发现方法和装置,构建包括头实体、第一提示语、第二提示语以及尾实体掩码的输入模板;将包含目标关系的每个三元组的头实体、目标关系对应的第一提示语的离散tokens和第二提示语tokens的预训练好的embedding填充输入模板中,并将尾实体掩码处理,形成输入样本数据;为每个目标关系构建单个预训练语言模型,利用目标关系对应的输入样本数据对预训练语言模型进行掩码任务的训练,优化第一提示语和第二提示语的嵌入表示;利用优化的第一提示语和第二提示语的嵌入表示以及预训练语言模型进行三元组中缺失实体的预测,进而能够提升预训练语言模型对知识的发现效率和准确性。

Patent Agency Ranking