-
公开(公告)号:CN102332028B
公开(公告)日:2013-08-28
申请号:CN201110312691.5
申请日:2011-10-15
申请人: 西安交通大学
IPC分类号: G06F17/30
摘要: 本发明公开了一种面向网页的不良Web内容识别方法,按照如下步骤:(1)以待识别的网页Page为输入,提取网页视觉结构信息、HTML标签信息、链接信息以及正文信息;(2)采用2层识别模型识别该Page是否是不良内容网页:首先采用面向网页结构的不良内容识别模型判别Page,如果Page判为不良则输出;否则采用面向网页文本内容的识别模型判别Page并输出结果;面向网页结构的不良内容识别模型采用决策树模型学习不良网页在页面结构中的规律并完成分类。面向网页文本内容的识别模型基于色情词典采用规则过滤明显为正常的网页,对剩下的疑似色情网页要区分的性知识类网页和真正色情网页,构建正负例比例1∶1的训练数据,抽取特征词采用SVM分类模型学习规律并完成最终识别。
-
公开(公告)号:CN102360383B
公开(公告)日:2013-07-31
申请号:CN201110312280.6
申请日:2011-10-15
申请人: 西安交通大学
IPC分类号: G06F17/30
摘要: 本发明公开了一种面向文本的领域术语与术语关系抽取方法,其特征在于,包括下述步骤:首先对原始语料进行预处理,获得候选词集,包括分句、分词及词性标注,干扰词过滤;其次,从原始语料和互联网中提取出术语特征,并结合双模型结构算法,从候选词中分离出术语;然后,采用倒排索引的方法构建术语词典,并利用最长匹配算法,标注待识别文本中的术语;最后,根据多维度节点标记规则,通过条件随机场模型进行多层次标记序列标注,得到待识别文本中术语间的关系。
-
公开(公告)号:CN102332028A
公开(公告)日:2012-01-25
申请号:CN201110312691.5
申请日:2011-10-15
申请人: 西安交通大学
IPC分类号: G06F17/30
摘要: 本发明公开了一种面向网页的不良Web内容识别方法,按照如下步骤:(1)以待识别的网页Page为输入,提取网页视觉结构信息、HTML标签信息、链接信息以及正文信息;(2)采用2层识别模型识别该Page是否是不良内容网页:首先采用面向网页结构的不良内容识别模型判别Page,如果Page判为不良则输出;否则采用面向网页文本内容的识别模型判别Page并输出结果;面向网页结构的不良内容识别模型采用决策树模型学习不良网页在页面结构中的规律并完成分类。面向网页文本内容的识别模型基于色情词典采用规则过滤明显为正常的网页,对剩下的疑似色情网页要区分的性知识类网页和真正色情网页,构建正负例比例1∶1的训练数据,抽取特征词采用SVM分类模型学习规律并完成最终识别。
-
公开(公告)号:CN102360383A
公开(公告)日:2012-02-22
申请号:CN201110312280.6
申请日:2011-10-15
申请人: 西安交通大学
IPC分类号: G06F17/30
摘要: 本发明公开了一种面向文本的领域术语与术语关系抽取方法,其特征在于,包括下述步骤:首先对原始语料进行预处理,获得候选词集,包括分句、分词及词性标注,干扰词过滤;其次,从原始语料和互联网中提取出术语特征,并结合双模型结构算法,从候选词中分离出术语;然后,采用倒排索引的方法构建术语词典,并利用最长匹配算法,标注待识别文本中的术语;最后,根据多维度节点标记规则,通过条件随机场模型进行多层次标记序列标注,得到待识别文本中术语间的关系。
-
-
-