论辩知识图谱、文本图谱编码模型、基于图谱的预训练方法

    公开(公告)号:CN117252256A

    公开(公告)日:2023-12-19

    申请号:CN202311170792.2

    申请日:2023-09-12

    Applicant: 复旦大学

    Inventor: 魏忠钰 梁敬聪

    Abstract: 本发明的目的是提供一种论辩知识图谱及其自动化构建方法、一种同时编码文本与图谱的模型及其预训练方法,以及一种利用图谱信息二次预训练模型的方法。所述方法包括:将论点与论据句子组织为句子内语义图谱和句子间逻辑图谱,并能够从原始论辩语料自动化构建;结合预训练语言模型和图神经网络编码文本和图谱信息,并在其中实现两类信息的交互,相应模型通过多种自监督任务在论辩语料上预训练;通过图谱信息扩充预训练预料内容,并增加相应的预训练任务,应用于所述模型或其它预训练语言模型的二次预训练。本发明能够有效整合各类论辩语料的信息,并为语言模型提供清晰准确的论辩语义、逻辑信息,有助于模型完成需要复杂推理论证的论辩场景任务。

    一种模型训练方法、装置、设备及可读存储介质

    公开(公告)号:CN116468096A

    公开(公告)日:2023-07-21

    申请号:CN202310362160.X

    申请日:2023-03-30

    Abstract: 本说明书公开了一种模型训练方法、装置、设备及可读存储介质,基于共同发起业务的关系构建第一训练样本组,基于各用户针对各业务的指定行为构建第二训练样本组。根据各用户的言论文本、各业务、第一训练样本组和第二训练样本组训练特征提取模型,之后,根据训练完成的特征提取模型、所述第三训练样本和所述第三训练样本的标注,训练待训练的预测模型。可见,通过构建第一训练样本组和第二训练样本组,结合用户的言论文本以训练特征提取模型的方案,针对用户从未执行过的业务,也可以有效地从用户的言论文本中提取得到用于表征用户对于执行不同类型的业务的态度和立场的用户特征,从而提高预测准确率。

    基于电子病历的传染病自动检测方法

    公开(公告)号:CN116072251A

    公开(公告)日:2023-05-05

    申请号:CN202211342147.X

    申请日:2022-10-31

    Applicant: 复旦大学

    Inventor: 魏忠钰 赵丽敏

    Abstract: 本发明的目的是提供一种基于电子病历的传染病自动检测方法,所述方法包括:电子病历的预处理,例如缺失值填充;特征表示方法,包括独热编码和分布式表示,用于将类别特征表示为机器可识别的向量形式;特征选择方法,包括基于统计学的方法和基于强化学习的方法,用于从大型特征集合中快速有效地筛选出有效的特征子集;下游分类算法,包括常用的四种机器学习算法和一种深度学习算法,用于基于特征子集的传染病分类鉴别。实验表明,基于强化学习的方法可以通过自动选择最有效的特征子集来极大改善模型的分类性能,本发明提出的传染病自动诊断程序可以帮助医生进行感染识别和高危人群的定位。

    图像文本检索模型的建模方法
    4.
    发明公开

    公开(公告)号:CN115221347A

    公开(公告)日:2022-10-21

    申请号:CN202210660120.9

    申请日:2022-06-13

    Applicant: 复旦大学

    Inventor: 魏忠钰 范智昊

    Abstract: 本申请实施例提供了一种图像文本检索模型的建模方法,包括以下步骤:基于掩码语言模型(MLM)生成合成负样本句;使用检索到的负样本和合成负样本句来训练图像文本配对(IRTM、ISTM);通过单词辨别任务WoC和单词校正任务WoD来对合成负样本与正样本句的区别进行训练。本申请实施例提出了一种基于生成负样本句的方法来构建负样本,以提高图文检索模型的训练效率。为了充分利用合成负样本句,本申请还提出了两个训练任务,单词辨别任务和单词校正任务,以结合细粒度的监督信号来增强多模态局部对应建模。本申请实施例构建出的模型在两个公共数据集MS‑COCO和Flickr30K上均达到了最先进的性能。

    在消息交互传播中进行谣言判别的方法及装置

    公开(公告)号:CN112528015B

    公开(公告)日:2022-11-18

    申请号:CN202011154448.0

    申请日:2020-10-26

    Applicant: 复旦大学

    Inventor: 魏忠钰 陈蕾

    Abstract: 本发明公开了一种在消息交互传播中进行谣言判别的方法及装置,其涉及人工智能识别技术领域,包括:对帖子的文本信息进行编码,并分析相关联的帖子之间的关系,从而生成消息交互的控制向量a;根据动态时间序列模型捕获交互信息的变化,应用注意力机制将各个时间阶段信息进行聚合,对帖子是否属于谣言进行预测;基于消息交互的控制向量a得到模型总体的损失函数,计算损失函数然后进行梯度回传,从而对提出模型进行训练和拟合,计算得到模型的最优参数网络,使用最优参数网络下的模型对帖子是否属于谣言进行预测。本申请能够通过传播过程中信息交互模式的建模和与交互模式的时序演化特征捕捉时间动态结构匹配以提高谣言判别的准确性。

    基因本体项名称生成方法、装置及存储介质

    公开(公告)号:CN112509640B

    公开(公告)日:2022-08-19

    申请号:CN202011135040.9

    申请日:2020-10-22

    Applicant: 复旦大学

    Abstract: 本发明的目的是提供一种基因本体项名称生成方法方法、装置及存储介质,所述基因本体项名称生成方法,所述方法包括:获取基因文本信息,所述基因文本信息至少包括目标基因本体项关联的至少一组基因信息,每组所述基因信息至少包括基因简称、基因别名、基因描述;至少根据所述基因信息中的单词、所述基因别名和描述、所述目标基因本体项的关联特性,确定所述目标基因本体项名称,避免人为命名造成的低效和不一致问题。

    一种多跳问答模型的评估方法、装置及存储介质

    公开(公告)号:CN114911900A

    公开(公告)日:2022-08-16

    申请号:CN202210469885.4

    申请日:2022-04-30

    Applicant: 复旦大学

    Inventor: 魏忠钰 丁佳玙

    Abstract: 本说明书实施例提供一种多跳问答模型的评估方法、装置及存储介质,所述方法包括:获取目标问题和多跳问答模型的数据库中与所述目标问题的真实答案相对应的原始文本;提取所述原始文本中的推理链;所述推理链表示推理得到所述目标问题的答案所使用的多个实体之间的关系;根据所述推理链的类型生成干扰所述多个实体之间的关系的至少一个干扰文本;将所述至少一个干扰文本加入至所述原始文本中,得到测试文本;根据所述多跳问答模型从测试文本中推理得到的推理答案评估所述多跳问答模型的抗干扰能力,从而实现定向地对模型进行评估,准确地查找到模型的弱点。

    视觉语言室内导航方法、装置、设备及存储介质

    公开(公告)号:CN114897179A

    公开(公告)日:2022-08-12

    申请号:CN202210477823.8

    申请日:2022-05-05

    Applicant: 复旦大学

    Inventor: 魏忠钰 张霁雯

    Abstract: 本申请实施例提供视觉语言室内导航方法、装置、设备及存储介质,其中的方法包括:基于预设的课程设计原则对预获取的R2R训练集进行重新设置,以得到融合有人类先验知识且适用于课程学习的CLR2R训练集;应用课程学习方式根据所述CLR2R训练集训练得到视觉语言室内导航模型以使虚拟机器人根据该视觉语言室内导航模型执行对应的室内导航任务。本申请能够有效且持续提高视觉语言室内导航过程的准确性、可靠性及效率,且能够在不增加模型复杂度的情况下显著提高导航机器人的性能、泛化性和训练效率。

    论辩单元的分类方法
    9.
    发明公开

    公开(公告)号:CN114841141A

    公开(公告)日:2022-08-02

    申请号:CN202210543480.0

    申请日:2022-05-19

    Applicant: 复旦大学

    Inventor: 魏忠钰 李寅子

    Abstract: 本申请实施例提供了一种论辩单元的分类方法,包括以下步骤:将论辩单元中的词项分为框架词和主题词;通过论辩性单元结构感知编码器根据框架词和主题词生成上下文词项嵌入,其中所述论辩性单元结构感知编码器包括自注意力机制、内部注意力机制和外注意力机制;通过Bi‑LSTM层根据上下文词项嵌入生成句子嵌入;通过max‑pooling层根据句子嵌入生成论辩单元的论辩性特征;结合论辩性特征和获取到的论辩单元的位置信息生成;通过多层感知器根据论辩性表示生成论辩单元的类型。本申请提供了一种论辩单元的分类方法,以增强分析文献语篇的效果。实验结果表明本申请在各个数据集上均具有有效性。

    模型训练方法、跨模态表征方法、无监督图像文本匹配方法及装置

    公开(公告)号:CN113868459A

    公开(公告)日:2021-12-31

    申请号:CN202110712040.9

    申请日:2021-06-25

    Inventor: 魏忠钰 李泽君

    Abstract: 本发明的目的是提供一种模型训练方法、跨模态表征方法、无监督图像文本匹配方法及装置,所述方法包括:计算训练文档中图片与句子的两两相似度值;基于所述相似度值,确定正样本对集和负样本对集;其中,所述正样本对集中有预设数量的正样本对;所述负样本对集中有预设数量的负样本对;所述正样本对集和所述负样本对集用于进一步训练所述模型,直至预设数量的所述正样本对的平均相似度值大于预设数量的所述负样本对的平均相似度值,且两者差值符合预设条件。上述实施方式可以减小采样的偏差,以更好的训练模型来对图片和句子进行匹配。

Patent Agency Ranking