一种基于主题模型的跨语言层次分类体系匹配方法

    公开(公告)号:CN107391565A

    公开(公告)日:2017-11-24

    申请号:CN201710441927.2

    申请日:2017-06-13

    Applicant: 东南大学

    CPC classification number: G06F16/36 G06F16/335 G06F16/35 G06F16/90344

    Abstract: 本发明公开一种基于主题模型的跨语言层次分类体系匹配方法,首先根据给定的两个不同语言层次分类体系产生相对应的背景文本,并对每个分类候选值进行预筛选;然后使用先前产生的背景文本作为语料库,使用一种基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,接下来采用典型关联分析算法对两种不同语言的语料库对应的高维主题分布进行空间向量映射,最后对映射后每个分类的每个预筛选候选值进行计算其余弦相似度,并判断该候选值是否可以作为该分类的一个最相关分类。本发明能够为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关的分类。

    RDF数据上基于图匹配的why‑not查询回答方法

    公开(公告)号:CN107193882A

    公开(公告)日:2017-09-22

    申请号:CN201710285751.6

    申请日:2017-04-27

    Applicant: 东南大学

    Inventor: 漆桂林 黄超 高桓

    Abstract: 本发明公开了一种RDF数据上基于图匹配的why‑not查询回答方法,包括如下步骤:(1)离线数据结构处理;(2)将why‑not问题中的关键字映射到RDF数据上的实体;(3)从候选实体出发,构造一个局部图;(4)查询分解;(5)图匹配;(6)生成why‑not问题的解释。本发明的有益效果为:本发明采用的方法可以更好、更高效的确定导致用户感兴趣的项被筛选掉的原因,并且给出相应的比较具体的修改意见,方便用户更好的去探索用户期望得到的结果,通常可以让用户更加满意。

    一种基于机器学习的图书本体匹配方法

    公开(公告)号:CN104484433B

    公开(公告)日:2017-06-30

    申请号:CN201410799922.3

    申请日:2014-12-19

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于机器学习的图书本体匹配方法,主要用于处理图书领域的本体匹配问题。本发明首先对于给定的两个图书本体生成所有待匹配的实例对与概念对,再利用启发式实例匹配规则与基于监督学习的决策模型从所有待匹配的实例对中挖掘实例间的等价关系,即得到实例匹配结果。然后对于所有待匹配的概念对使用基于半监督学习的标签传播算法挖掘概念间的上下位与等价关系,从而得到概念匹配结果。最终,将实例匹配结果与概念匹配结果共同作为图书本体匹配的结果。

    一种用于知识点定位的语义匹配模型

    公开(公告)号:CN112926340B

    公开(公告)日:2024-05-07

    申请号:CN202110319217.9

    申请日:2021-03-25

    Applicant: 东南大学

    Abstract: 本发明公开了一种用于知识点定位的语义匹配模型,主要用于解决电学领域题目知识点定位的问题。本发明首先对原始教材进行预处理,形成语料。然后,使用基于统计学的语义匹配模型TF‑IDF,LSI以及LDA编码。之后,再使用深度学习的语义匹配模型加强深度语义理解,通过BERT编码。随后,对于以上四种编码方式,计算余弦相似度作为语义相似的衡量。最后,基于投票的语义匹配集成模型根据教材片段出现在前列的次数和余弦相似度选择用户指定数量的教材片段作为最终知识点定位的结果。

    一种基于网络表示学习的相似案例推荐方法

    公开(公告)号:CN112100321B

    公开(公告)日:2022-11-15

    申请号:CN202010760699.7

    申请日:2020-07-31

    Applicant: 东南大学

    Abstract: 一种基于网络表示学习的相似案例推荐方法,主要用于给定法律文书的情况下在庞大的法律文书数据库中找出该法律文书最相似的10篇法律文书。本发明以互联网上的法律文书作为起点,利用爬虫技术爬取大量的法律文书,利用正则表达式对法律文书进行初步处理;利用爬虫技术爬取大量的法律实体,并通过bert计算法律实体与法律实体之间的相似度,达到阈值的法律实体之间构建相似实体关系,利用法律实体和法律文书构建法律知识网络,并将构建完成的网络输入到网络表示学习模型中,得到法律文书的向量值,利用余弦相似度计算得到该法律文书最相似的10篇文书。

    一种基于跨语言知识图谱的多跳推理问答方法

    公开(公告)号:CN114780754A

    公开(公告)日:2022-07-22

    申请号:CN202210552441.7

    申请日:2022-05-20

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于跨语言知识图谱的多跳推理问答方法,主要用于改进现有的智能问答系统,使之能够在回答用户提出的问题时有效融合和利用不同语言的知识图谱中的信息。本发明关注传统问答方法在使用跨语言知识图谱时依赖预先融合图谱导致的错误传递问题,提出了一种跨图谱推理方法,并且进一步建立了一种迭代框架,用于联合多跳推理与实体对齐方法。前者使用multilingual‑BERT对文本进行通用表示,使推理信息能够在不同语言的图谱间传递.使用双向LSTM编码问题、推理路径。通过注意力机制更新问题表示,用于关系预测。后者将前者与实体对齐方法组合,以输入问题为query,从图谱上生成多组候选路径,迭代的从中抽取伪对齐标注增强实体对齐方法,从而提升问答性能。

    一种量刑标准知识增强的数值感知的智能法律判决方法

    公开(公告)号:CN114444517B

    公开(公告)日:2022-07-08

    申请号:CN202210371281.6

    申请日:2022-04-11

    Applicant: 东南大学

    Abstract: 本发明公开了一种量刑标准知识增强的数值感知的智能法律判决方法,用于解决一般方法缺乏数值感知能力进而在数值法律判决任务上表现较差的问题,提出的该方法包括以下步骤:首先使用PTLM对事实描述编码,获得句子级和词语级的表征;然后;接着使用基于预训练语言模型(PTLM,Pre‑Trained Language Model)的遮蔽数字预测(MNP)来帮助模型获得法律上的数值意义;再从数值表征和选择的法律知识中构建图网络,进行数值推理;最后使用经过以上步骤得到的表征预测类别。本发明在设计时利用了PTLM的优势,同时融入了司法先验,并构建图网络进行数值推理,能够显著提升法律判决准确率。

    一种基于复制机制和层级选择策略的药物推荐方法

    公开(公告)号:CN114628002A

    公开(公告)日:2022-06-14

    申请号:CN202210269372.9

    申请日:2022-03-18

    Applicant: 东南大学

    Inventor: 吴锐 漆桂林

    Abstract: 本发明公开了一种基于复制机制和层级选择策略的药物推荐方法,该方法通过多头注意力机制来对患者的历史药物、疾病与手术信息进行编码,同时将药物推荐建模成序列生成问题,并结合层级选择策略,提高药物推荐的准确率。首先,利用多头注意力机制,对患者的历史药物、疾病和手术信息进行编码;然后,构建药物共现图谱和相互作用图谱,并分别对其进行编码;接着,基于上述编码后的表示,利用患者当前的疾病、手术信息和已推荐的药物信息对其进行解码,计算生成概率,同时提出了一种层级式的选择机制来计算复制概率;最后,结合两种概率进行药物推荐,从而得到一种基于序列生成模型的药物推荐方法。

    一种快速启动的交互式关系标注与抽取框架

    公开(公告)号:CN114118092A

    公开(公告)日:2022-03-01

    申请号:CN202111474423.3

    申请日:2021-12-03

    Applicant: 东南大学

    Inventor: 李学恺 漆桂林

    Abstract: 本发明涉及一种快速启动的交互式关系标注与抽取框架,包括以下步骤:S1:使用通用命名实体识别数据集对命名实体识别模型进行预训练;S2:使用通用关系抽取数据集对少样本关系抽取模型进行预训练;S3:设定待抽取关系和少量标注数据;S4:对待抽取文本进行数据预处理;S5:使用命名实体识别模型对待抽取文本进行命名实体识别;S6:对实体进行人工配对;S7:对配对结果进行初步关系抽取;S8:对关系抽取结果进行人工校对;S9:对少样本关系抽取模型进行微调;S10:重复S4到S9直到所有的待抽取文本均处理完成。该方案克服现有启动成本高昂和重人力成本投入的缺点,实现具有快速启动和低人工成本特性的关系标注和抽取。

    一种基于主题特征和隐式句子结构的事件抽取方法

    公开(公告)号:CN113901813A

    公开(公告)日:2022-01-07

    申请号:CN202111178364.5

    申请日:2021-10-09

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于主题特征和隐式句子结构的事件抽取方法,主要用于把含有事件信息的非结构化文本以结构化的形式呈现出来,在自动文摘、自动问答、信息检索等领域有着广泛的应用。本发明首先通过结合BERT和LDA获得文档的主题特征为句子级的事件抽取模型引入文档级的主题信息;其次抽取出BERT词嵌入表示中隐含的句法信息,并将该抽取过程与事件抽取进行联合建模,在避免了错误累积问题的同时为事件抽取引入重要的句法信息;最后模型使用基于Bi‑LSTM和级联式CRF的序列标注方法抽取单句中的多个触发词以及抽取实体在多个事件中的元素角色。

Patent Agency Ranking