-
公开(公告)号:CN112668344A
公开(公告)日:2021-04-16
申请号:CN202110099300.X
申请日:2021-01-25
Applicant: 东南大学
IPC: G06F40/35 , G06F40/211 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于混合专家模型的复杂度可控的多样化问题生成方法,主要用于生成与文本相关的满足复杂度要求的自然语言问题。本发明以现有问答数据集中海量的问题数据为起点,提出了一种新型的问题复杂度评估方式,该方法由6个复杂度评估指标组合而成。并用该复杂度评估方式对现有数据集进行难度标注,作为模型的训练集、验证集和测试集。使用双向LSTM网络对给定文本和答案进行编码,得到对应的语义表示并拼接起来。使用LSTM网络对编码结果进行解码,生成问题。在解码过程中使用隐向量建模不同复杂度的问题模板,从而指导满足给定复杂度的问题生成。并使用混合专家模型选择不同的文本内容,从而生成不同的问题,提升问题生成的多样性。
-
公开(公告)号:CN112507699A
公开(公告)日:2021-03-16
申请号:CN202010972885.7
申请日:2020-09-16
Applicant: 东南大学
IPC: G06F40/279 , G06F40/211 , G06F16/36 , G06N3/04 , G06N3/08
Abstract: 本专利公开了一种远程监督关系抽取方法,主要用于解决远程监督关系抽取中信息不充分和监督信息存在噪声的问题。本专利构建了引入多源额外信息的异构图,并以图卷积网络的方式进行建模。本专利首先对所有的信息进行编码,包括待抽取的文本、知识图谱中的实体信息、启发式的文本路径等。然后,本专利把每种信息构建成一个节点,将信息之间的关联性表示为边。接着,通过图卷积网络对所有节点进行特征抽取,然后通过注意力机制对噪声信息进行过滤。最后,通过监督学习的方式对整个框架中的参数进行更新,最后学习到一种灵活性高、表达能力强的关系抽取模型。
-
公开(公告)号:CN110889502A
公开(公告)日:2020-03-17
申请号:CN201910980161.4
申请日:2019-10-15
Applicant: 东南大学
IPC: G06N3/08 , G06K9/62 , G06F40/289 , G06F16/951 , G06Q50/18
Abstract: 本发明涉及一种基于深度学习的争议焦点生成方法,所述方法包括以下步骤:步骤1)从网络中爬取大量裁判文书;步骤2)利用正则表达式方法对裁判文书进行初步的清洗和整理,抽取出裁判文书中的原告诉称和被告辩称,并对每一对原告诉称和被告辩称进行人工标注,将原告诉称和被告辩称以及人工标注的数据集,以1:1:1的比例构建成训练集;步骤3)使用深度学习中的seq2seq文本生成模型和attention模型对所述步骤2)最终得到的训练数据集进行训练后,导出该训练数据集对应的生成器模型;步骤4)对步骤3)中训练得到的文本生成器,利用训练完成的生成器从未标注的原告诉称和被告辩称中生成双方的争议焦点。
-
公开(公告)号:CN110070093A
公开(公告)日:2019-07-30
申请号:CN201910278460.3
申请日:2019-04-08
Applicant: 东南大学
Abstract: 本发明公开了一种基于对抗学习的远监督关系抽取去噪方法,可从本质上去除远监督生成的数据中的噪声。所述的远监督关系抽取去噪方法,所述方法包括:步骤10)建立预测器P和判别器D模型:步骤20)基于卷积神经网络,建立预测器P和判别器D结构:通过巻积层提取句子级的特征,然后将其与词汇级特征相连起来,得到最终的句子表示,将句子的表示输入到一个全连接层,并得到一个概率;对于预测器P,所述概率代表着一个实例包含关系r的可能性;对于判别器D,所述概率代表着一个句子来自Dl而不是Dp的可能性;步骤30)优化所述预测器P和判别器D,得到优化后的预测器P和判别器D;步骤40)利用优化后的预测器P清除噪声。
-
公开(公告)号:CN106874422A
公开(公告)日:2017-06-20
申请号:CN201710055713.1
申请日:2017-01-25
Applicant: 东南大学
IPC: G06F17/30
CPC classification number: G06F16/2228 , G06F16/2428 , G06F16/284
Abstract: 本发明公开了一种面向关系型数据库的图查询方法,主要应用于普通用户查询关系型数据库的场景。本发明中,离线处理阶段首先将关系型数据转换成图数据,并在该图数据上建立相关索引。在线查询阶段允许数据查询者用自己的词汇来构建图查询,然后对图查询的节点做初步匹配,最后进行Top‑k不精确子图匹配,对用户构建的图查询和离线转换得到的图数据进行图匹配。通过匹配,用户能够得到满足其查询要求的若干子图,而这些子图则作为查询结果返回给用户。
-
公开(公告)号:CN104699778A
公开(公告)日:2015-06-10
申请号:CN201510105414.5
申请日:2015-03-10
Applicant: 东南大学
Abstract: 本发明公开了一种基于机器学习的跨语言分类结构匹配方法,主要用于处理不同语言分类结构之间的匹配问题。本发明首先根据给定的两个分类结构产生一个双语的对照字典;然后对于给定的两个分类结构生成所有待匹配的分类对;接下来使用先前产生的字典作为辅助,使用一种基于机器学习的判定方法对每个分类对中两个分类是否可以匹配做出判定,该判定方法包含两步,第一步使用三个不同的评价方法(基于结构的相似度,基于属性的相似度,基于属性取值的相似度)对每个分类对中两个分类的可匹配程度进行评价,第二步使用机器学习的方法综合三种评价方法并对是否可匹配给出判定;最后,将所有被判定为可以匹配的分类对作为分类结构的匹配结果。
-
公开(公告)号:CN119025683A
公开(公告)日:2024-11-26
申请号:CN202411177700.8
申请日:2024-08-26
Applicant: 东南大学
IPC: G06F16/36 , G06F16/332 , G06F18/214 , G06F18/22 , G06F18/24 , G06N3/09 , G06F40/30 , G06F40/186 , G06N3/048
Abstract: 本发明涉及一种针对复杂知识图谱问答任务的知识改写方法,具体如下,步骤1,将GLM‑4作为数据生成器,构建用于监督训练的数据集,步骤2,基于构建的数据集,对开源大模型进行监督训练,使其初步掌握知识改写的能力,步骤3,从监督训练后的大模型中采样同一知识改写任务的多种输出,作为候选知识表示形式,步骤4,对于候选知识表示形式,将其作为问答任务的上下文,以获取问题对应的答案,构建偏好数据集,步骤5,采用GLM‑4对偏好的知识表示形式进行改写,提升数据集的质量和多样性,步骤6,采用偏好数据集基于DPO算法微调开源大模型,使其与问答模型的偏好对齐。显著提升了大模型在处理复杂知识图谱问答任务中的性能。
-
公开(公告)号:CN114817307B
公开(公告)日:2024-08-13
申请号:CN202210147772.2
申请日:2022-02-17
Applicant: 东南大学
IPC: G06F16/2452 , G06F16/242 , G06N20/00
Abstract: 本专利公开了一种基于半监督学习和元学习的少样本NL2SQL方法。本方法能在仅拥有少量标注数据的场景下,通过自训练框架的辅助对模型进行迭代训练,在这过程中逐步优化模型以及伪标签。首先对基础模型利用已有的少量标注数据进行热启动训练后,将其用于大量无标注数据的伪标签以及置信度预测,并使其与标签数据结合使对模型进行半监督学习。在半监督学习的过程中,同时引入元学习算法,它会在训练过程中进行任务采样,利用其特有任务训练机制来提升模型的快速学习以及迁移学习能力。最终得到的NL2SQL模型具有接近使用大量标注数据在有监督条件下训练的模型的准确率,同时针对新数据具有强大的少样本快速学习与微调的能力。
-
公开(公告)号:CN112131403B
公开(公告)日:2024-07-26
申请号:CN202010972901.2
申请日:2020-09-16
Applicant: 东南大学
Abstract: 本发明公开了一种动态环境下的知识图谱表示学习方法,对于知识图谱的表示学习任务,本发明设计了一个全新的知识图谱表示学习模型;该模型首先通过设计的一个基于注意力机制的图卷积神经网络将知识图谱中的实体和关系的上下文信息编码为向量表示,接着通过一个门策略将实体(或关系)的向量表示与其上下文向量结合,得到联合向量表示,最后基于联合向量表示进行训练,得到图谱中实体和关系的高质量向量表示。对于图谱更新后的增量式表示学习任务,基于上述模型设计了一个增量式表示学习算法,将每次图谱更新带来的影响限制在实体(或关系)各自的上下文范围内,而非整个图谱,以此方式避免重新训练所有数据,达到增量式表示学习的目标。
-
公开(公告)号:CN112668344B
公开(公告)日:2024-01-26
申请号:CN202110099300.X
申请日:2021-01-25
Applicant: 东南大学
IPC: G06F40/35 , G06F40/211 , G06N3/0442 , G06N3/0455 , G06F16/332 , G06F40/186
Abstract: 本发明公开了一种基于混合专家模型的复杂度可控的多样化问题生成方法,主要用于生成与文本相关的满足复杂度要求的自然语言问题。本发明以现有问答数据集中海量的问题数据为起点,提出了一种新型的问题复杂度评估方式,该方法由6个复杂度评估指标组合而成。并用该复杂度评估方式对现有数据集进行难度标注,作为模型的训练集、验证集和测试集。使用双向LSTM网络对给定文本和答案进行编码,得到对应的语义表示并拼接起来。使用LSTM网络对编码结果进行解码,生成问题。在解码过程中使用隐向量建模不同复杂度的问题模板,从而指导满足给定复杂度的问题生成。并使用混合专家模型选择不同的文本内容,从而生成不同的问题,提升问题生成的多样性。
-
-
-
-
-
-
-
-
-