一种基于最大熵的事件抽取方法

    公开(公告)号:CN104598535B

    公开(公告)日:2018-03-16

    申请号:CN201410838622.1

    申请日:2014-12-29

    Abstract: 本发明公开了一种基于最大熵的事件抽取方法。本方法为:1)构建一触发词词典和一事件元素角色词典;2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取。本发明使用广泛性、准确性高,大大提高了事件抽取效果。

    一种网页信息相关地域的识别方法

    公开(公告)号:CN103853738B

    公开(公告)日:2017-06-27

    申请号:CN201210500929.1

    申请日:2012-11-29

    Abstract: 本发明公开了一种网页信息相关地域的识别方法。本方法为:1)建立一区域信息本体,2)提取所爬取的网页信息的元数据信息以及正文内容,并对提取的信息标题和正文内容进行分词;3)对词语中表示处所的地名代词进行解析,判断地名代词与其前面出现的地理名词之间是否存在指代关系,如果存在,则将地名代词替换为相应的地理名词;4)对经过分词所得词语中非标准地名词语进行解析,将非标准词语替换为标准词语;5)基于区域信息本体对相对位置区域信息进行解析,得到准确的地名词语;6)基于区域信息本体,对解析后的网页信息进行判断处理,将网页信息归入匹配成功的区域。本发明大大提高了网页信息相关区域识别的准确度。

    一种基于最大熵的事件抽取方法

    公开(公告)号:CN104598535A

    公开(公告)日:2015-05-06

    申请号:CN201410838622.1

    申请日:2014-12-29

    CPC classification number: G06F17/2785 G06F17/2795

    Abstract: 本发明公开了一种基于最大熵的事件抽取方法。本方法为:1)构建一触发词词典和一事件元素角色词典;2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取。本发明使用广泛性、准确性高,大大提高了事件抽取效果。

    一种基于事件抽取的敏感信息监控方法

    公开(公告)号:CN104572958A

    公开(公告)日:2015-04-29

    申请号:CN201410849418.X

    申请日:2014-12-29

    CPC classification number: G06F17/30737 G06F17/30707

    Abstract: 本发明公开了一种基于事件抽取的敏感信息监控方法。本方法为:1)构建一触发词词典和一事件元素角色词典;2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取;将抽取到的事件与被监控事件匹配,若相同,则判定抽取到的事件为敏感信息。本发明大大提高了敏感信息的监控效率。

    一种基于事件抽取的敏感信息监控方法

    公开(公告)号:CN104572958B

    公开(公告)日:2018-10-02

    申请号:CN201410849418.X

    申请日:2014-12-29

    Abstract: 本发明公开了一种基于事件抽取的敏感信息监控方法。本方法为:1)构建一触发词词典和一事件元素角色词典;2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取;将抽取到的事件与被监控事件匹配,若相同,则判定抽取到的事件为敏感信息。本发明大大提高了敏感信息的监控效率。

    一种网页信息相关地域的识别方法

    公开(公告)号:CN103853738A

    公开(公告)日:2014-06-11

    申请号:CN201210500929.1

    申请日:2012-11-29

    CPC classification number: G06F17/30864 G06F17/2785

    Abstract: 本发明公开了一种网页信息相关地域的识别方法。本方法为:1)建立一区域信息本体,2)提取所爬取的网页信息的元数据信息以及正文内容,并对提取的信息标题和正文内容进行分词;3)对词语中表示处所的地名代词进行解析,判断地名代词与其前面出现的地理名词之间是否存在指代关系,如果存在,则将地名代词替换为相应的地理名词;4)对经过分词所得词语中非标准地名词语进行解析,将非标准词语替换为标准词语;5)基于区域信息本体对相对位置区域信息进行解析,得到准确的地名词语;6)基于区域信息本体,对解析后的网页信息进行判断处理,将网页信息归入匹配成功的区域。本发明大大提高了网页信息相关区域识别的准确度。

    一种事件信息挖掘并预警的方法

    公开(公告)号:CN103176981B

    公开(公告)日:2016-04-27

    申请号:CN201110430831.9

    申请日:2011-12-20

    Abstract: 本发明公开了一种事件信息挖掘并预警的方法,属于信息技术领域。本方法为:1)建立事件信息本体,对爬取的互联网信息进行过滤,得到与事件相关的信息;2)基于所述事件信息本体中的实例名称和属性对过滤后的信息进行分类;3)对分类后的信息按照设定特征进行聚类,得到每一类信息中所包含的事件;4)定期计算每一事件的信息页面数、页面浏览数、页面转发数、信息来源区域数、信息来源网站数以及综合指数等事件特征参数值;5)如果某事件的各特征参数值和其之前一定时期内的均值之间的差值超过事先设定的阈值,则对该事件进行预警。本发明保证了食品安全事件信息发现、预警的准确性和全面性,提高了食品安全风险预警的效率。

    一种中文文本情感识别方法

    公开(公告)号:CN103678278A

    公开(公告)日:2014-03-26

    申请号:CN201310690318.2

    申请日:2013-12-16

    Abstract: 本发明公开了一种中文文本情感识别方法。本方法为:1)分别构建褒贬义词典、程度词典、否定词典;2)对待处理语料文本的句子进行分词处理,得到词语的依存关系和词频;3)根据词频选取主题词,将包含主题词的语句标为主题句;4)对句子中的每一词语,判断其是否出现在该褒贬义词典中确定该词语的情感初值,并根据词语的依存关系确定出该词语的修饰程度词语和否定词语,然后根据修饰程度词语在程度词典的取值确定该词语的权重、根据否定词语数目确定极性,得到该词语的情感值;然后对该句子所有词语的情感值求和得到该句子的情感值;5)将该文本中的所有句子的情感值进行求和,得到该文本的情感状态。本发明大大提高文章情感识别的准确率。

    一种事件信息挖掘并预警的方法

    公开(公告)号:CN103176981A

    公开(公告)日:2013-06-26

    申请号:CN201110430831.9

    申请日:2011-12-20

    Abstract: 本发明公开了一种事件信息挖掘并预警的方法,属于信息技术领域。本方法为:1)建立事件信息本体,对爬取的互联网信息进行过滤,得到与事件相关的信息;2)基于所述事件信息本体中的实例名称和属性对过滤后的信息进行分类;3)对分类后的信息按照设定特征进行聚类,得到每一类信息中所包含的事件;4)定期计算每一事件的信息页面数、页面浏览数、页面转发数、信息来源区域数、信息来源网站数以及综合指数等事件特征参数值;5)如果某事件的各特征参数值和其之前一定时期内的均值之间的差值超过事先设定的阈值,则对该事件进行预警。本发明保证了食品安全事件信息发现、预警的准确性和全面性,提高了食品安全风险预警的效率。

Patent Agency Ranking