一种中文事件抽取方法
    11.
    发明授权

    公开(公告)号:CN107122416B

    公开(公告)日:2021-07-06

    申请号:CN201710209305.7

    申请日:2017-03-31

    Applicant: 北京大学

    Abstract: 本发明公开了一种中文事件抽取方法。本方法为:1)对待抽取的中文文本进行实体识别,将识别出来的实体作为事件元素的候选词;对该中文文本逐字进行标注,然后根据标注结果,结合标注模式,识别该中文文本中的事件触发词以及该中文文本所描述的事件类型;2)将该中文文本、事件元素的候选词、事件触发词以及事件类型输入到分类模型中,判断每一所述候选词是否为真实的事件元素;3)根据上述得到的事件元素、事件触发词及事件类型,得到完整的事件结构,完成事件抽取。本发明解决了中文事件抽取中事件触发词和文本中的词语不完全匹配的问题,并提高了中文事件抽取的准确性。

    一种面向多源网络百科的知识库构建方法

    公开(公告)号:CN107239481B

    公开(公告)日:2021-03-12

    申请号:CN201710236165.2

    申请日:2017-04-12

    Applicant: 北京大学

    Abstract: 本发明公开了一种面向多源网络百科的知识库构建方法。本方法为:1)从设定的若干网络百科抓取页面,并从抓取的每一页面中抽取页面的类别信息;2)基于类别信息构建类别树,并将类别信息和类别树对应,形成知识库的类别体系;提取每个网络百科对应页面的的别名信息构建该网络百科的概念词典;3)对抓取的页面进行去重,得到知识库的概念集合;4)从页面集合中每一页面的页面信息框和正文中抽取三元组信息;5)将三元组中的客体转换成标准格式,然后根据得到的标准化三元组和类别体系建立知识库。本发明不仅可以输出实体的类别体系,还可以对三元组中的实体进行链接,得到高质量的三元组知识,适用于多个网络百科混合生成知识库的需求。

    一种结合正则表达式和神经网络的自然语言任务处理方法和装置

    公开(公告)号:CN110909864A

    公开(公告)日:2020-03-24

    申请号:CN201911006241.6

    申请日:2019-10-22

    Applicant: 北京大学

    Abstract: 本发明公开一种结合正则表达式和神经网络模型的自然语言任务处理方法和装置。本方法为:1)给定一个自然语言相关的任务,针对该任务涉及的具体领域,获取正则表达式形式的领域知识,得到正则表达式集合;2)针对该任务选择一个基础的能够解决该任务的神经网络模型;3)在神经网络模型的训练过程中引入正则表达式集合中蕴含的领域知识,从而提升神经网络模型针对该任务的性能,正则表达式和神经网络模型的结合可以在不同层面上进行,包括输入层,模块层和输出层。本发明能够基于正则表达式形式的领域知识对神经网络模型的特定模块进行微调,并且辅助神经网络的训练,从而提升神经网络模型在该任务上的性能。

    一种中文事件抽取方法
    14.
    发明公开

    公开(公告)号:CN107122416A

    公开(公告)日:2017-09-01

    申请号:CN201710209305.7

    申请日:2017-03-31

    Applicant: 北京大学

    Abstract: 本发明公开了一种中文事件抽取方法。本方法为:1)对待抽取的中文文本进行实体识别,将识别出来的实体作为事件元素的候选词;对该中文文本逐字进行标注,然后根据标注结果,结合标注模式,识别该中文文本中的事件触发词以及该中文文本所描述的事件类型;2)将该中文文本、事件元素的候选词、事件触发词以及事件类型输入到分类模型中,判断每一所述候选词是否为真实的事件元素;3)根据上述得到的事件元素、事件触发词及事件类型,得到完整的事件结构,完成事件抽取。本发明解决了中文事件抽取中事件触发词和文本中的词语不完全匹配的问题,并提高了中文事件抽取的准确性。

    一种基于本体结构的个性化推荐方法

    公开(公告)号:CN103150667A

    公开(公告)日:2013-06-12

    申请号:CN201310082157.9

    申请日:2013-03-14

    Applicant: 北京大学

    Abstract: 本发明涉及一种基于本体结构的个性化推荐方法,步骤包括:1)根据本体结构组成一概念词典;2)将待推荐物品按照概念词典进行分词,将分词结果中的每一个词条在所述本体结构的对应节点位置标记为该物品;3)在设定的时间内将用户浏览过的物品集合表示为用户的兴趣内容,用概念词典对用户兴趣内容进行分词,并将分词结果中的每一个词条在所述本体结构的对应节点位置标记为该用户;4)根据本体相似度计算模型,对待推荐物品和用户兴趣内容的相似度进行计算,推荐相似度最大的n个物品或相似度大于一设定阈值的物品给用户。本发明提高推荐的准确性,克服了传统推荐方法的不足。

    一种基于多通道卷积神经网络的初等教育类选择题解答方法和装置

    公开(公告)号:CN112434152A

    公开(公告)日:2021-03-02

    申请号:CN202011384874.3

    申请日:2020-12-01

    Applicant: 北京大学

    Abstract: 本发明公开一种基于多通道卷积神经网络的初等教育类选择题解答方法和装置。本方法为:1)给定一道以文本形式呈现的选择题,将每个选项补充成为断言,利用学科知识库对每条断言进行检索,通过桥接规则进行筛选,得到高置信度证据;2)使用多通道卷积神经网络处理问题信息与高置信度证据,得到选项间的置信度竞争结果;3)根据选项间的置信度竞争结果判断出最佳选项。本发明能够利用桥接注意力机制从学科知识库中检索出高置信证据,随后通过门控多通道卷积神经网络同时处理题目和证据,得到选项间的比较分数,进而基于所有选项对间比较的累积分数确定最佳选项,从而使机器可以解答初等教育阶段的特定学科选择题,并取得较好的表现。

    一种基于序列标注模型的学科术语抽取方法及系统

    公开(公告)号:CN104794169B

    公开(公告)日:2018-11-20

    申请号:CN201510145663.7

    申请日:2015-03-30

    Abstract: 本发明公开了一种基于序列标注模型的学科术语抽取方法及系统,属于数据抽取技术领域。该方法首先对训练语料中的学科术语进行标注和类别标签设置,得到标注序列,并以训练语料作为观察序列、标注序列作为状态序列,训练出学科术语抽取模型,以该模型为抽取器初步抽取出待抽取语料中的学科术语,再利用学科术语之间的相似度进行初步抽取结果的筛选,筛选出属于对应学科领域的真正学科学术。通过本发明所述的抽取方法及系统,在进行学科术语的抽取时,通过将少量的训练语料进行学科术语的标注,实现了语料中学科术语的快速、准确的提取,同时还能够不断完善学科领域的已有知识体系结构,克服了传统学科术语抽取方法的不足。

    一种知识点关联方法及系统

    公开(公告)号:CN104794168B

    公开(公告)日:2018-06-05

    申请号:CN201510145575.7

    申请日:2015-03-30

    Abstract: 本发明公开了一种知识点关联方法及系统,属于互联网技术中的数据挖掘领域,包括:获取待加入已有知识体系结构的学科术语,根据待加入学科术语与该领域的已有知识体系结构中的学科术语之间的相似度,确定待加入学科术语在体系结构中的位置,完善已有知识体系结构;获取待提取知识点的语料中的学科术语,并计算每个学科术语的重要度;最后根据学科术语的重要度和其在已有知识体系结构中的位置,计算已有知识体系结构中节点位置的权重,将权重最大的节点位置处的学科术语确定为所述语料的知识点。该方法及系统实现了对已有知识体系结构不断完善,能够为用户匹配出最相关的知识点,以便为用户推荐与所述知识点相关的资源,提高了用户的感知。

    一种基于转移矩阵构建关系抽取模型的方法

    公开(公告)号:CN106970981A

    公开(公告)日:2017-07-21

    申请号:CN201710193366.9

    申请日:2017-03-28

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于转移矩阵构建关系抽取模型的方法。本方法为:1)选择基础关系抽取模型M,其输入为一个句子或描述同一对主体和客体的一组句子,其输出为输入句子或输入的一组句子所描述的关系的分布pi,并在中间结果中生成输入句子或输入的一组句子的向量表示si;2)根据si构建一个转移矩阵Ti;3)将该模型M输出的关系分布pi乘以该转移矩阵Ti并归一化,得到输入句子或输入的一组句子可能被标注成的关系的分布oi;4)以该关系分布oi拟合有噪声的标注为目标,训练该基础关系抽取模型M直到达到预设的终止条件,得到关系抽取模型。本模型可以免受噪声的影响,从而可以取得更好的关系抽取效果。

    一种基于序列标注模型的学科术语抽取方法及系统

    公开(公告)号:CN104794169A

    公开(公告)日:2015-07-22

    申请号:CN201510145663.7

    申请日:2015-03-30

    Abstract: 本发明公开了一种基于序列标注模型的学科术语抽取方法及系统,属于数据抽取技术领域。该方法首先对训练语料中的学科术语进行标注和类别标签设置,得到标注序列,并以训练语料作为观察序列、标注序列作为状态序列,训练出学科术语抽取模型,以该模型为抽取器初步抽取出待抽取语料中的学科术语,再利用学科术语之间的相似度进行初步抽取结果的筛选,筛选出属于对应学科领域的真正学科学术。通过本发明所述的抽取方法及系统,在进行学科术语的抽取时,通过将少量的训练语料进行学科术语的标注,实现了语料中学科术语的快速、准确的提取,同时还能够不断完善学科领域的已有知识体系结构,克服了传统学科术语抽取方法的不足。

Patent Agency Ranking