一种基于互联网开放信息的事件发生风险预测并预警方法

    公开(公告)号:CN103854063B

    公开(公告)日:2017-04-05

    申请号:CN201210501872.7

    申请日:2012-11-29

    Inventor: 杨风雷 黎建辉

    Abstract: 本发明公开了一种基于互联网开放信息的事件发生风险预测并预警方法。本发明为:1)对网页信息进行垃圾过滤;2)对过滤后的网页信息中表示处所的词语进行解析,得到地名词语;基于所建信息本体对解析后的网页信息进行处理,将网页信息归入匹配区域;3)对网页信息进行过滤,得到与食品安全相关的网页信息;然后利用回归分析模型对过滤后的网页信息进行处理,判断每一网页信息相关的对象类别;4)确定设定区域、对象事件的网页信息集合,建立事件特征参数并定期计算参数值,如果某事件的特征参数值超过设定阈值则对该事件进行预警;5)基于矩阵分析和回归预测模型对目标区域发生设定事件的风险进行不同预警。本发明提高了风险预警的效率。

    一种面向用户生成内容的欺骗性垃圾意见检测方法

    公开(公告)号:CN103853744B

    公开(公告)日:2017-02-22

    申请号:CN201210501986.1

    申请日:2012-11-29

    Inventor: 杨风雷 黎建辉

    Abstract: 本发明公开了一种面向用户生成内容的欺骗性垃圾意见检测方法,本方法为:1)对爬取的网页建立一用户意见信息集合,并进行聚类,得到若干个信息区域;2)计算每一信息区域的标志向量并抽样得到其样本集合;3)对每一样本集合中的样本进行标注,得到每个信息区域的欺骗性垃圾意见样本集合和无标注意见信息样本集合;4)对每一样本,寻找各信息区域的样本集合中与其最相似的P个样本,计算该样本的最终特征向量;5)基于每个样本的最终特征向量,选择机器学习方法针对每个信息区域建立欺骗性垃圾意见检测模型;6)利用欺骗性垃圾意见检测模型对新爬取的用户生成内容网页进行欺骗性垃圾意见检测。本发明提高了欺骗性垃圾意见的检测效率。

    一种及时高效的互联网信息爬取方法

    公开(公告)号:CN103176985B

    公开(公告)日:2016-06-29

    申请号:CN201110430997.0

    申请日:2011-12-20

    Abstract: 本发明公开了一种及时高效的互联网信息爬取方法,属于信息技术领域。本方法为:1)设定种子地址,爬取保存网页信息并确定导航页面;2)对每一导航页面进行多次爬取,并对爬取的网页进行分析标注;4)建立每一网站的主题判断模型和导航页面变更时间序列预测模型;5)预测每一网站导航页面下一次变更时间,确定下一爬取时间,爬取导航页面并提取未爬取过的子页面地址和锚文本;6)利用所建主题判断模型对上一步提取的子页面地址和锚文本进行判断,并据判断结果分别处理;7)基于新爬取的主题相关页面,形成或更新每一网站导航页面的当前变更时间序列,确定下一爬取时间进行网页爬取。本发明能在较小负载下,保证所采集信息的新颖性和主题性。

    一种系统进化树的重建方法

    公开(公告)号:CN103093118B

    公开(公告)日:2015-10-28

    申请号:CN201310049516.0

    申请日:2013-02-07

    Abstract: 本发明属于应用生物信息学技术领域,涉及一种系统进化树的重建方法。该方法首先选定特定的序列标记片段进行检索并筛选相关的序列数据并组织成.fasta格式文件作为基础数据集;随后对基础数据集进行基础系统发育树的构建并生成.XML系统发育树文件,同时构建基础BLAST库;然后综合基础数据集和新输入的自测序列数据进行系统发育树的重建并生成.XML文件,然后可视化和标注自测序列数据代表的样本物种在整棵大树中的位置等信息。该方法是一种基于初始大树构建和同源相似性比对的快速算法相结合的方法,可以用于生物系统发育、生物条形码、生物物种鉴定等相关领域的大系统发育树重建和web应用。

    一种网页信息相关地域的识别方法

    公开(公告)号:CN103853738A

    公开(公告)日:2014-06-11

    申请号:CN201210500929.1

    申请日:2012-11-29

    CPC classification number: G06F17/30864 G06F17/2785

    Abstract: 本发明公开了一种网页信息相关地域的识别方法。本方法为:1)建立一区域信息本体,2)提取所爬取的网页信息的元数据信息以及正文内容,并对提取的信息标题和正文内容进行分词;3)对词语中表示处所的地名代词进行解析,判断地名代词与其前面出现的地理名词之间是否存在指代关系,如果存在,则将地名代词替换为相应的地理名词;4)对经过分词所得词语中非标准地名词语进行解析,将非标准词语替换为标准词语;5)基于区域信息本体对相对位置区域信息进行解析,得到准确的地名词语;6)基于区域信息本体,对解析后的网页信息进行判断处理,将网页信息归入匹配成功的区域。本发明大大提高了网页信息相关区域识别的准确度。

    一种基于中文文本情感识别的网络热点挖掘方法

    公开(公告)号:CN103744953A

    公开(公告)日:2014-04-23

    申请号:CN201410001471.4

    申请日:2014-01-02

    CPC classification number: G06F17/274 G06F17/2735

    Abstract: 本发明公开了一种基于中文文本情感识别的网络热点挖掘方法。本方法为:1)分别构建褒贬义词典、程度词典、否定词典;2)对设定事件文本的句子进行分词处理,得到词语的依存关系和词频;3)根据词频选取主题词,将包含主题词的语句标为主题句;4)对句子中的每一词语,判断其是否出现在该褒贬义词典中确定该词语的情感初值,然后根据该词语的修饰程度词语在程度词典的取值确定该词语的权重、并确定极性,得到该词语的情感值;然后对该句子所有词语的情感值求和得到该句子的情感值;5)将该文本中所有句子的情感值求和,得到该文本的情感状态;6)根据所有文本的情感倾向确定该设定事件是否为热点事件。本发明大大提高热点事件识别的准确率。

    一种基于分布式关系-对象映射处理的大数据查询的方法

    公开(公告)号:CN103678609A

    公开(公告)日:2014-03-26

    申请号:CN201310690335.6

    申请日:2013-12-16

    CPC classification number: G06F17/30595 G06F17/30424

    Abstract: 本发明公开了一种基于分布式关系-对象映射处理的大数据查询的方法。本方法为:1)选取m个数据处理节点,对每一数据处理节点构建一Hibernate Session对象,得到一分布式Hibernate架构,并生成一Session资源队列;2)设置一配置文件,设置每一类型表对应的存储策略和路由策略;将数据量较小S表在每一数据处理节点备份,将数据量较大L表分块存储到m个数据处理节点;3)对输入的查询请求进行解析,根据查询请求的类别选择对应的处理器;4)所选处理器根据该查询请求和对应的路由策略,从资源队列中选择对应的节点对该查询请求进行处理,并对处理结果进行规约。本发明显著提高对大数据表的查询速率。

    一种云计算系统中的资源统一调度方法

    公开(公告)号:CN103533086A

    公开(公告)日:2014-01-22

    申请号:CN201310532750.9

    申请日:2013-10-31

    CPC classification number: Y02D50/10

    Abstract: 本发明公开了一种云计算系统中的资源统一调度方法。本方法为:1)建立一物理资源池和一虚拟资源池;2)系统控制器根据资源请求的需求类型,将其转发到相应组件;3)物理资源池管理组件收到该请求后,从物理资源池中选择服务器,并上电开机、初始化后,返回访问地址和口令给该用户;虚拟资源池管理组件收到该请求后,从虚拟资源池中选择物理资源并创建虚拟机,返回访问地址和口令;当虚拟资源池中的使用率大于设定阈值时,资源调度器从物理资源池中选取服务器并注销,将其迁移到虚拟资源池并注册;当物理资源池中的资源使用率大于设定阈值时,从虚拟资源池中选择服务器并注销,然后将其迁移到物理资源池并注册。本发明资源利用率高、能耗低。

    一种基于分布式文件系统的海量地学数据并行处理方法

    公开(公告)号:CN103198097A

    公开(公告)日:2013-07-10

    申请号:CN201310076895.2

    申请日:2013-03-11

    Abstract: 本发明公开了一种基于分布式文件系统的海量地学数据并行处理方法。本方法为:1)采用分布式文件系统作为地学数据的存储系统,部署在计算集群上;分布式文件系统拥有统一的名称空间;2)计算集群的作业调度系统将接收的计算作业保存到一等待队列中;3)调度系统从等待队列中选择一个计算作业进入运行队列;4)调度系统根据计算作业信息在分布式文件系统的元数据中查找该计算作业运行需要的数据文件所在的计算节点;5)作业调度系统挑选一持有该计算作业运行需要的数据最多的计算节点;该计算节点远程获取该计算作业需要但该计算节点未持有的数据文件,然后在该计算节点执行该计算作业,并返回执行结果。本方法最大程度的做到了计算本地化。

    一种及时高效的互联网信息爬取方法

    公开(公告)号:CN103176985A

    公开(公告)日:2013-06-26

    申请号:CN201110430997.0

    申请日:2011-12-20

    Abstract: 本发明公开了一种及时高效的互联网信息爬取方法,属于信息技术领域。本方法为:1)设定种子地址,爬取保存网页信息并确定导航页面;2)对每一导航页面进行多次爬取,并对爬取的网页进行分析标注;4)建立每一网站的主题判断模型和导航页面变更时间序列预测模型;5)预测每一网站导航页面下一次变更时间,确定下一爬取时间,爬取导航页面并提取未爬取过的子页面地址和锚文本;6)利用所建主题判断模型对上一步提取的子页面地址和锚文本进行判断,并据判断结果分别处理;7)基于新爬取的主题相关页面,形成或更新每一网站导航页面的当前变更时间序列,确定下一爬取时间进行网页爬取。本发明能在较小负载下,保证所采集信息的新颖性和主题性。

Patent Agency Ranking