一种基于篇章信息的中文水果品种信息抽取方法及装置

    公开(公告)号:CN106649264B

    公开(公告)日:2019-07-05

    申请号:CN201611043050.3

    申请日:2016-11-21

    Abstract: 本发明提供一种基于篇章信息的中文水果品种信息抽取方法及装置。通过获取语料,在搜索引擎网站爬取下载与水果相关的页面;对所述与水果相关的页面进行语料标注;对所述与水果相关的页面进行词项对提取,将词项对分为训练语料和测试语料;对所述语料进行基于篇章结构的远距离特征提取;利用训练语料特征训练得到基于深度学习的组合分类器;利用组合分类器从测试语料中抽取水果品种信息;将与水果相关的页面随机分为N组,重复执行,获得评估结果。改进目前的信息抽取技术,使其更加适应于农业领域,提高了水果品种名称识别与抽取的准确率。

    一种疾病名词自动识别方法

    公开(公告)号:CN105426358A

    公开(公告)日:2016-03-23

    申请号:CN201510756485.1

    申请日:2015-11-09

    CPC classification number: G06F17/277

    Abstract: 本发明提供一种疾病名词自动识别方法,所述方法包括,获取第一预设新闻材料中的语料数据;构建疾病领域本体;对所述疾病领域本体进行扩充,得到扩充后的疾病领域本体;利用所述扩充后的疾病领域本体对从第一预设新闻材料中获取的语料数据进行自动标注,得到带有扩充后的疾病名词标注的训练语料;根据所述带有扩充后的疾病名词标注的训练语料,建立疾病名词自动识别模型;根据所述疾病名词自动识别模型,对第二预设新闻材料中的语料进行疾病名词识别。本发明所述方法实现了对新闻报道等语言通俗的文献中的疾病名词或其别名的自动识别。

    一种针对海量新闻的疾病名词自动识别方法

    公开(公告)号:CN105426358B

    公开(公告)日:2018-08-31

    申请号:CN201510756485.1

    申请日:2015-11-09

    Abstract: 本发明提供一种针对海量新闻的疾病名词自动识别方法,所述方法包括,获取第一预设新闻材料中的语料数据;构建疾病领域本体;对所述疾病领域本体进行扩充,得到扩充后的疾病领域本体;利用所述扩充后的疾病领域本体对从第一预设新闻材料中获取的语料数据进行自动标注,得到带有扩充后的疾病名词标注的训练语料;根据所述带有扩充后的疾病名词标注的训练语料,建立疾病名词自动识别模型;根据所述疾病名词自动识别模型,对第二预设新闻材料中的语料进行疾病名词识别。本发明所述方法实现了对新闻报道等语言通俗的文献中的疾病名词或其别名的自动识别。

    一种基于篇章信息的中文水果品种信息抽取方法及装置

    公开(公告)号:CN106649264A

    公开(公告)日:2017-05-10

    申请号:CN201611043050.3

    申请日:2016-11-21

    CPC classification number: G06F17/2775 G06F16/35 G06F17/2785

    Abstract: 本发明提供一种基于篇章信息的中文水果品种信息抽取方法及装置。通过获取语料,在搜索引擎网站爬取下载与水果相关的页面;对所述与水果相关的页面进行语料标注;对所述与水果相关的页面进行词项对提取,将词项对分为训练语料和测试语料;对所述语料进行基于篇章结构的远距离特征提取;利用训练语料特征训练得到基于深度学习的组合分类器;利用组合分类器从测试语料中抽取水果品种信息;将与水果相关的页面随机分为N组,重复执行,获得评估结果。改进目前的信息抽取技术,使其更加适应于农业领域,提高了水果品种名称识别与抽取的准确率。

    一种基于深度学习的集成式食品安全文本分类方法

    公开(公告)号:CN106570164A

    公开(公告)日:2017-04-19

    申请号:CN201610976304.0

    申请日:2016-11-07

    CPC classification number: G06F16/35 G06N3/0454 G06N3/08

    Abstract: 一种基于深度学习的集成式食品安全文本分类方法。本发明涉及中文食品安全文本分类方法,包括如下步骤:S1步骤:进行新闻语料采集,得三类文档:食品安全类、非食品安全类和无标签类文档;S2步骤:将所述语料进行处理,分成训练语料和测试语料;S3步骤:在训练阶段,首先将所述训练语料中负样本随机分成N组,每组的负样本和正样本组合成一个训练语料子集,其次,采用深度学习方法用所述子集训练生成一个基分类器,最后,N个基分类器组成基于深度学习的组合分类器;S4步骤:在测试阶段,用所述组合分类器对所述测试语料进行分类,得到N个分类标签;按照多数投票制对标签进行投票,得到最终分类标签。本发明能解决中文食品安全语料中的单类分类问题,准确地从网络新闻中筛选出食品安全相关报道。

Patent Agency Ranking