-
公开(公告)号:CN103176984A
公开(公告)日:2013-06-26
申请号:CN201110430978.8
申请日:2011-12-20
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
Abstract: 本发明公开了一种用户生成内容中欺骗性垃圾意见检测方法,属于信息技术领域。本方法为:1)对设定用户生成内容信息源中的信息进行爬取并生成用户生成内容网页集合,然后对用户生成内容网页进行标注,得到候选欺骗性垃圾意见集合;2)对集合中的样本进行过滤,形成准确欺骗性垃圾意见集合;3)从意见作者、意见内容、内容分布、链接四个纬度对准确欺骗性垃圾意见集合及无标注用户生成内容网页集合样本进行特征提取,生成每一维度的特征向量;4)采用机器学习方法建立每一维度的欺骗性垃圾意见检测模型;5)利用所述欺骗性垃圾意见检测模型等对新爬取的用户生成内容网页进行欺骗性垃圾意见检测。本发明大大提高了欺骗性垃圾意见的检测效率。
-
公开(公告)号:CN102402606A
公开(公告)日:2012-04-04
申请号:CN201110385415.1
申请日:2011-11-28
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
Abstract: 本发明公开了一种高效的文本数据挖掘方法,属于信息技术领域。本方法为:1)文件预处理阶段将内容经分词后的原文件合并为若干新文件;2)数据映射阶段计算每一词语在新文件中的总频数、在其中每一原文件中的频数及相对频率pr等,并将结果发送到重定向模块中;3)重定向阶段计算每一Reduce任务的负载量payload,并为每一Reduce任务设置一负载指示器payi;4)判断当前词语是否已分配了Reduce任务;如果未分配,则将其分配给Reducej,且payj+pr*100≤payload成立;然后更新Reducej的负载指示payj;否则将当前词语分配给相应Reducei任务;5)数据规约阶段对分配的词语计算其最终的频数等参数;6)根据数据规约结果,提取设定范围内频数大于设定阈值的词语。本发明大大提高频数计算、数据挖掘效率。
-
公开(公告)号:CN103020281B
公开(公告)日:2016-01-27
申请号:CN201210580189.7
申请日:2012-12-27
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
Abstract: 本发明公开了一种基于空间数据数值索引的数据存储与检索方法。本方法为:1)从互联网中自动抓取包含空间数据的页面,对其进行解析后存储到数据库中;2)在数据库中选择要进行索引的属性,对于其中非数值类型的属性,将其转换成与其应的数值进行存储;3)按照空间数据所属类型对空间数据进行分类索引,为每一数据产品的数据表建立一数值索引文件,将其作为主索引,并按设定时间周期创建增量索引,定期将增量索引与主索引进行合并;所述数值索引文件包括一个索引属性与倒排文件映射表和多个数值文档倒排表;4)将所述索引部署到检索服务端;5)检索服务端根据收到的检索请求,对数据表进行检索。本方法检索速度、支持增量索引。
-
公开(公告)号:CN104598535A
公开(公告)日:2015-05-06
申请号:CN201410838622.1
申请日:2014-12-29
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
CPC classification number: G06F17/2785 , G06F17/2795
Abstract: 本发明公开了一种基于最大熵的事件抽取方法。本方法为:1)构建一触发词词典和一事件元素角色词典;2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取。本发明使用广泛性、准确性高,大大提高了事件抽取效果。
-
公开(公告)号:CN104572958A
公开(公告)日:2015-04-29
申请号:CN201410849418.X
申请日:2014-12-29
Applicant: 中国科学院计算机网络信息中心
CPC classification number: G06F17/30737 , G06F17/30707
Abstract: 本发明公开了一种基于事件抽取的敏感信息监控方法。本方法为:1)构建一触发词词典和一事件元素角色词典;2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取;将抽取到的事件与被监控事件匹配,若相同,则判定抽取到的事件为敏感信息。本发明大大提高了敏感信息的监控效率。
-
公开(公告)号:CN103854063A
公开(公告)日:2014-06-11
申请号:CN201210501872.7
申请日:2012-11-29
Applicant: 中国科学院计算机网络信息中心
Abstract: 本发明公开了一种基于互联网开放信息的事件发生风险预测并预警方法。本发明为:1)对网页信息进行垃圾过滤;2)对过滤后的网页信息中表示处所的词语进行解析,得到地名词语;基于所建信息本体对解析后的网页信息进行处理,将网页信息归入匹配区域;3)对网页信息进行过滤,得到与食品安全相关的网页信息;然后利用回归分析模型对过滤后的网页信息进行处理,判断每一网页信息相关的对象类别;4)确定设定区域、对象事件的网页信息集合,建立事件特征参数并定期计算参数值,如果某事件的特征参数值超过设定阈值则对该事件进行预警;5)基于矩阵分析和回归预测模型对目标区域发生设定事件的风险进行不同预警。本发明提高了风险预警的效率。
-
公开(公告)号:CN103853700A
公开(公告)日:2014-06-11
申请号:CN201210501970.0
申请日:2012-11-29
Applicant: 中国科学院计算机网络信息中心
Abstract: 本发明公开了一种基于区域和对象信息发现的事件预警方法。本方法为:1)对爬取的网页信息进行过滤,得到与食品安全事件相关的非垃圾网页信息;2)对网页信息中表示处所的词语进行解析,得到准确的地名词语;基于所建事件信息本体对网页信息进行处理,将网页信息归入匹配成功的区域;3)利用回归分析模型对网页信息进行处理,判断每一网页相关的对象类别;4)根据网页所属区域及其相关的对象类别,得到设定区域、对象的事件的网页信息集合,建立事件的特征参数并定期计算特征参数值,如果某事件的特征参数值持续超过设定阈值则对该事件进行预警。本发明提高了事件预警的准确性和全面性,保证了食品安全事件预警的效率。
-
公开(公告)号:CN103176983A
公开(公告)日:2013-06-26
申请号:CN201110430949.1
申请日:2011-12-20
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
Abstract: 本发明公开了一种基于互联网信息的事件预警方法,属于信息技术领域。其方法为:1)对每一设定网站进行网页信息爬取并保存,得到与事件相关的信息;2)对爬取得到的与事件相关的信息进行垃圾信息过滤;3)建立事件信息本体,基于所述事件信息本体中的实例名称和属性采用模式匹配方法对过滤后的信息进行分类;4)对分类后的信息按照设定特征进行聚类,得到每一类信息中所包含的事件;5)定期计算每一事件的各特征参数值,如果某事件的各特征参数值和其之前一定时期内的均值之间的差值超过事先设定的阈值,则对该事件进行预警。本发明保证了食品安全事件信息识别、预警的及时性、准确性、全面性,提高了食品安全风险预警的效率。
-
公开(公告)号:CN102254030B
公开(公告)日:2013-04-10
申请号:CN201110220536.0
申请日:2011-08-02
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
Abstract: 本发明公开了一种面向全球变化研究的空间科学数据自动汇聚方法,属于信息技术领域。本方法为:1)服务器定期对数据源进行访问,生成下载任务;2)根据当前下载任务,下载元数据文件并保存到服务器,对下载的文件进行质量检查、元数据项提取、计算和转换;3)将元数据文件路径、元数据项保存到元数据项数据库并建立索引;4)建立元数据文件、元数据项数据库数据、索引数据之间的映射关系,并提供一检索接口;5)服务器据查询条件查询是否存在所查询实体数据,若不存在则据数据预订申请生成实体数据下载任务进行下载,并对下载数据进行质量检查及元数据项更新。本方法可一站式地查询、获取分布在全球各地的海量全球变化空间科学数据资源。
-
公开(公告)号:CN102254030A
公开(公告)日:2011-11-23
申请号:CN201110220536.0
申请日:2011-08-02
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
Abstract: 本发明公开了一种面向全球变化研究的空间科学数据自动汇聚方法,属于信息技术领域。本方法为:1)服务器定期对数据源进行访问,生成下载任务;2)根据当前下载任务,下载元数据文件并保存到服务器,对下载的文件进行质量检查、元数据项提取、计算和转换;3)将元数据文件路径、元数据项保存到元数据项数据库并建立索引;4)建立元数据文件、元数据项数据库数据、索引数据之间的映射关系,并提供一检索接口;5)服务器据查询条件查询是否存在所查询实体数据,若不存在则据数据预订申请生成实体数据下载任务进行下载,并对下载数据进行质量检查及元数据项更新。本方法可一站式地查询、获取分布在全球各地的海量全球变化空间科学数据资源。
-
-
-
-
-
-
-
-
-