-
公开(公告)号:CN105653522B
公开(公告)日:2019-04-05
申请号:CN201610041747.0
申请日:2016-01-21
Applicant: 中国农业大学
IPC: G06F17/27
Abstract: 本发明公开了属于计算机中文信息处理领域的一种针对植物领域的非分类关系识别方法。根据对植物领域关系的分类,对分类关系和非分类关系进行定义;获取相关词条的非结构化网页内容,作为语料并进行预处理,获得预处理模块;然后再进行基于词汇‑语法的非分类关系的初步抽取,对获得的结果,进行改进,获得改进抽取模块;最后基于百度百科半结构化文本的非分类关系抽取,获得非分类关系抽取模块,对其进行形式化表达,获得可视性结果。该方法在对文本进行自然语言处理的基础上,直接用非分类关系词汇‑语法模式进行抽取,准确率在70%左右,取得了较好的结果,为植物领域知识图谱构建奠定了基础,且为农民提供了更专业的植物领域技术和知识。
-
公开(公告)号:CN107145503A
公开(公告)日:2017-09-08
申请号:CN201710166727.0
申请日:2017-03-20
Applicant: 中国农业大学
IPC: G06F17/30
CPC classification number: G06F17/30734 , G06F17/30705
Abstract: 本发明公开一种基于word2vec的远监督非分类关系提取方法及系统,能较准确提取蔬菜领域的非分类关系。方法包括:爬取网络百科和大型蔬菜网站的网络蔬菜领域非结构化文本数据作为语料,对语料依次进行预处理,得到初步的训练语料;利用初步的训练语料训练word2vec模型,利用word2vec模型得到每个句子的空间向量;将初步的训练语料按照非分类关系类型进行聚合,对于每个关系的聚合数据,抽取常见句子模式和不常见的句子模式;选择两个分别满足两种不同模式的句子空间向量作为k‑means聚类方法的初始中心,对所有句子空间向量进行聚类,选择满足常见句子模式的一类,得到质量较好的训练语料;由质量较好的训练语料训练卷积神经网络模型,通过一个全连接softmax层,提取非分类关系。
-
公开(公告)号:CN105653522A
公开(公告)日:2016-06-08
申请号:CN201610041747.0
申请日:2016-01-21
Applicant: 中国农业大学
IPC: G06F17/27
Abstract: 本发明公开了属于计算机中文信息处理领域的一种针对植物领域的非分类关系识别方法。根据对植物领域关系的分类,对分类关系和非分类关系进行定义;获取相关词条的非结构化网页内容,作为语料并进行预处理,获得预处理模块;然后再进行基于词汇-语法的非分类关系的初步抽取,对获得的结果,进行改进,获得改进抽取模块;最后基于百度百科半结构化文本的非分类关系抽取,获得非分类关系抽取模块,对其进行形式化表达,获得可视性结果。该方法在对文本进行自然语言处理的基础上,直接用非分类关系词汇-语法模式进行抽取,准确率在70%左右,取得了较好的结果,为植物领域知识图谱构建奠定了基础,且为农民提供了更专业的植物领域技术和知识。
-
-