一种基于话题模型的网络负面信息影响最小化方法

    公开(公告)号:CN105468681A

    公开(公告)日:2016-04-06

    申请号:CN201510783824.5

    申请日:2015-11-16

    CPC classification number: G06F17/30867 G06Q50/01

    Abstract: 本发明涉及一种基于话题模型的网络负面信息影响最小化方法,包括如下步骤:1)采用有向图表示社交网络中信息的传播,通过话题模型分别计算负面信息的概率分布和每条边上的历史信息的概率分布;2)分别计算负面信息的概率分布和每条边上的历史信息的概率分布的距离,即KL散度d(w,i),其中d表示KL散度的计算结果,w表示历史信息的话题分布,i表示负面信息的话题分布;3)计算和其中b(w)和o(w)分别为中心度和出度入度算法的计算结果,然后从大到小排序,并去掉前k个节点,使负面信息的传播范围最小。本发明对于恶意信息已经爆发的社交网络能进行有效地控制,使负面信息的影响范围大大降低。

    一种乱序数据包字符串匹配方法及系统

    公开(公告)号:CN104796354A

    公开(公告)日:2015-07-22

    申请号:CN201510121507.7

    申请日:2015-03-19

    CPC classification number: H04L49/9057 G06F17/30985 G06F2207/025

    Abstract: 本发明涉及一种乱序数据包字符串匹配方法及系统,包括以下步骤:初始化确定有限状态自动机DFA和模式后缀树PST;初始化缓冲区,逐个接收在网络中传输的、由数据流分割得到的字符串,每个所述数据流由至少两个字符串有序排列组成;逐个获取属于同一个数据流的字符串;如果当前的字符串存在前缀,设置确定有限状态自动机的当前状态;如果当前的字符串存在后缀,将查找状态追加到当前的字符串的末尾,得到合并片段;将合并片段输入到确定有限状态自动机中;存储当前的字符串信息,并让当前的字符串通过。本发明提出的乱序数据包字符串匹配方法,该模型不需要缓存数据包,而只缓存状态,实现了乱序数据包重排的字符串匹配。

    数据流预测方法及装置
    13.
    发明授权

    公开(公告)号:CN102710616B

    公开(公告)日:2015-04-22

    申请号:CN201210155437.3

    申请日:2012-05-18

    Abstract: 本发明涉及一种数据流预测方法及装置。数据流预测方法包括:根据样本数据更新集成模型索引,集成模型索引用于存储关键词与支持向量集合之间的映射关系,支持向量集合中的支持向量为所述集成模型中支持向量机SVM分类器的支持向量;对输入文本进行分词,得到该输入文本的关键词,输入文本为待测数据流;根据更新后的集成模型索引检索包含关键词的支持向量集合,以及该支持向量集合中的支持向量所在SVM分类器的信息;用检索到的支持向量集合中的所有支持向量对输入文本进行预测。本发明的数据流预测方法及装置,基于集成模型索引进行亚线性的在线预测,由于通过倒排表将支持向量按照关键字进行聚集,因而预测速度得到了明显的提升。

    一种基于自动编码机的分布式离群点检测方法及系统

    公开(公告)号:CN104008420A

    公开(公告)日:2014-08-27

    申请号:CN201410225026.6

    申请日:2014-05-26

    Abstract: 本发明涉及一种基于自动编码机的分布式离群点检测方法及系统,包括定义训练数据集和测试数据集;将训练集的训练数据随机分配给若干个计算单元;所有计算单元并行执行,每个计算单元求解编码与解码参数;汇总每个计算单元的编码与解码参数得到最终编码与解码参数,构建一个自复制模型;将自复制模型应用到测试数据集上,并行计算每条测试数据的重建误差;按照重建误差降序排列测试数据,重建误差大于预定阈值的测试数据为离群点;本发明所述方法处理需要的总时间与处理的样本个数之间是独立的,仅仅取决于参数求解需要达到的精度;本发明非常适合基于MapReduce框架来处理大规模数据集上的离群点检测,具有良好的伸缩性与扩展性。

    一种面向数据流处理的弹性可扩展资源管理方法及系统

    公开(公告)号:CN103634394A

    公开(公告)日:2014-03-12

    申请号:CN201310618731.8

    申请日:2013-11-28

    Abstract: 本发明涉及一种面向数据流处理的弹性可扩展资源管理方法及系统,包括本地管理器实时监控其对应的执行实例的资源利用率和输入负载情况,周期性地向给弹性管理器发送监控报告;所述弹性管理器分析所有本地管理器发送来的监控报告,当发现某一子集群中的某个执行实例出现负载问题时,生成相应的负载均衡策略,启动窗口重构协议或状态重构协议,重新确定上游相关执行实例原来将要发送给出现负载问题的执行实例的元组的去向;本发明所述系统需要具有可扩展性,即可根据当前的数据流负载情况,动态增加、减少节点数量或者在已有节点间均衡负载输入,以实现在保证服务质量的前提下提高资源的利用率。

    数据流预测方法及装置
    16.
    发明公开

    公开(公告)号:CN102710616A

    公开(公告)日:2012-10-03

    申请号:CN201210155437.3

    申请日:2012-05-18

    Abstract: 本发明涉及一种数据流预测方法及装置。数据流预测方法包括:根据样本数据更新集成模型索引,集成模型索引用于存储关键词与支持向量集合之间的映射关系,支持向量集合中的支持向量为所述集成模型中支持向量机SVM分类器的支持向量;对输入文本进行分词,得到该输入文本的关键词,输入文本为待测数据流;根据更新后的集成模型索引检索包含关键词的支持向量集合,以及该支持向量集合中的支持向量所在SVM分类器的信息;用检索到的支持向量集合中的所有支持向量对输入文本进行预测。本发明的数据流预测方法及装置,基于集成模型索引进行亚线性的在线预测,由于通过倒排表将支持向量按照关键字进行聚集,因而预测速度得到了明显的提升。

    一种通用的条款与文档匹配方法

    公开(公告)号:CN111209375A

    公开(公告)日:2020-05-29

    申请号:CN202010031467.8

    申请日:2020-01-13

    Abstract: 本发明公开了一种通用的条款与文档匹配方法,其步骤包括:1)根据条款切割体系对所选每一条款句子进行分词块操作,并对相应词块添加解释词和扩展词,生成针对每一条款的多个查询语句;2)根据条款i的每一查询语句查询收集该条款i的相关文档数据并标注所收集每一文档所对应的条款,获得每一条款i对应的标注数据集;3)对于每一条款i,根据条款i的标注数据集I训练得到该条款i的条款主题模型和条款分类模型;4)对于一待匹配条款的文档材料a,计算该文档材料a与每一条款的条款主题模型相似度和类别分类;5)根据返回的类别概率值和相似度计算各条款的匹配概率值,返回匹配概率最高的条款。本发明解决了条款与文档难以匹配的问题。

    一种基于网络流量多字段识别的人流量检测方法及系统

    公开(公告)号:CN106878102B

    公开(公告)日:2020-05-22

    申请号:CN201611204278.6

    申请日:2016-12-23

    Abstract: 本发明提供一种基于网络流量多字段识别的人流量检测方法,步骤包括:1)获取网络流量,对所含的数据包进行预处理,包括IP碎片重组、链接还原和协议识别;2)识别预处理后的数据包所含的多字段信息,该多字段信息包括基准字段、设备指纹字段、位置信息和时间戳信息;3)将多字段信息填充于设备表中;4)通过检测设备表中的联网设备位置信息和时间戳信息来统计人流量。本发明还提供一种基于网络流量多字段识别的人流量检测系统,包括流量获取模块、数据预处理模块、多字段识别模块、设备表模块及人流量统计模块。

    一种基于话题模型的网络负面信息影响最小化方法

    公开(公告)号:CN105468681B

    公开(公告)日:2018-11-23

    申请号:CN201510783824.5

    申请日:2015-11-16

    Abstract: 本发明涉及一种基于话题模型的网络负面信息影响最小化方法,包括如下步骤:1)采用有向图表示社交网络中信息的传播,通过话题模型分别计算负面信息的概率分布和每条边上的历史信息的概率分布;2)分别计算负面信息的概率分布和每条边上的历史信息的概率分布的距离,即KL散度d(w,i),其中d表示KL散度的计算结果,w表示历史信息的话题分布,i表示负面信息的话题分布;3)计算和其中b(w)和o(w)分别为中心度和出度入度算法的计算结果,然后从大到小排序,并去掉前k个节点,使负面信息的传播范围最小。本发明对于恶意信息已经爆发的社交网络能进行有效地控制,使负面信息的影响范围大大降低。

    一种基于微博的事件实时监测方法及系统

    公开(公告)号:CN103955505B

    公开(公告)日:2017-09-26

    申请号:CN201410168703.5

    申请日:2014-04-24

    Abstract: 本发明涉及一种基于微博的事件实时监测方法及系统,所述方法包括:异常事件检测步骤,输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存在异常时间点的事件作为异常事件;地理位置定位步骤,在与异常事件相关的微博文本内容中,抽取出地理位置实体,并采用聚类方法从抽取的地理位置实体中筛选出异常事件发生的地理位置。此外,还包括有相关事件推荐步骤和/或事件相关度分析步骤。本发明对用户所关心的事件进行实时监测,监控该事件在微博平台上的传播和发展趋势,能精准地挖掘出事件发生的异常时间点和地理位置,并推荐给用户其感兴趣的话题。

Patent Agency Ranking