-
公开(公告)号:CN103678278A
公开(公告)日:2014-03-26
申请号:CN201310690318.2
申请日:2013-12-16
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/27
Abstract: 本发明公开了一种中文文本情感识别方法。本方法为:1)分别构建褒贬义词典、程度词典、否定词典;2)对待处理语料文本的句子进行分词处理,得到词语的依存关系和词频;3)根据词频选取主题词,将包含主题词的语句标为主题句;4)对句子中的每一词语,判断其是否出现在该褒贬义词典中确定该词语的情感初值,并根据词语的依存关系确定出该词语的修饰程度词语和否定词语,然后根据修饰程度词语在程度词典的取值确定该词语的权重、根据否定词语数目确定极性,得到该词语的情感值;然后对该句子所有词语的情感值求和得到该句子的情感值;5)将该文本中的所有句子的情感值进行求和,得到该文本的情感状态。本发明大大提高文章情感识别的准确率。
-
公开(公告)号:CN104598535B
公开(公告)日:2018-03-16
申请号:CN201410838622.1
申请日:2014-12-29
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
Abstract: 本发明公开了一种基于最大熵的事件抽取方法。本方法为:1)构建一触发词词典和一事件元素角色词典;2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取。本发明使用广泛性、准确性高,大大提高了事件抽取效果。
-
公开(公告)号:CN104598535A
公开(公告)日:2015-05-06
申请号:CN201410838622.1
申请日:2014-12-29
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
CPC classification number: G06F17/2785 , G06F17/2795
Abstract: 本发明公开了一种基于最大熵的事件抽取方法。本方法为:1)构建一触发词词典和一事件元素角色词典;2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取。本发明使用广泛性、准确性高,大大提高了事件抽取效果。
-
公开(公告)号:CN104572958A
公开(公告)日:2015-04-29
申请号:CN201410849418.X
申请日:2014-12-29
Applicant: 中国科学院计算机网络信息中心
CPC classification number: G06F17/30737 , G06F17/30707
Abstract: 本发明公开了一种基于事件抽取的敏感信息监控方法。本方法为:1)构建一触发词词典和一事件元素角色词典;2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取;将抽取到的事件与被监控事件匹配,若相同,则判定抽取到的事件为敏感信息。本发明大大提高了敏感信息的监控效率。
-
公开(公告)号:CN104572958B
公开(公告)日:2018-10-02
申请号:CN201410849418.X
申请日:2014-12-29
Applicant: 中国科学院计算机网络信息中心
Abstract: 本发明公开了一种基于事件抽取的敏感信息监控方法。本方法为:1)构建一触发词词典和一事件元素角色词典;2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取;将抽取到的事件与被监控事件匹配,若相同,则判定抽取到的事件为敏感信息。本发明大大提高了敏感信息的监控效率。
-
公开(公告)号:CN103744953A
公开(公告)日:2014-04-23
申请号:CN201410001471.4
申请日:2014-01-02
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
CPC classification number: G06F17/274 , G06F17/2735
Abstract: 本发明公开了一种基于中文文本情感识别的网络热点挖掘方法。本方法为:1)分别构建褒贬义词典、程度词典、否定词典;2)对设定事件文本的句子进行分词处理,得到词语的依存关系和词频;3)根据词频选取主题词,将包含主题词的语句标为主题句;4)对句子中的每一词语,判断其是否出现在该褒贬义词典中确定该词语的情感初值,然后根据该词语的修饰程度词语在程度词典的取值确定该词语的权重、并确定极性,得到该词语的情感值;然后对该句子所有词语的情感值求和得到该句子的情感值;5)将该文本中所有句子的情感值求和,得到该文本的情感状态;6)根据所有文本的情感倾向确定该设定事件是否为热点事件。本发明大大提高热点事件识别的准确率。
-
-
-
-
-