-
公开(公告)号:CN110795943A
公开(公告)日:2020-02-14
申请号:CN201910909274.5
申请日:2019-09-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种针对事件的话题表示生成方法及系统,包括:获取包含多个文档的文档集,且该多篇文档表述同一事件,提取该文档集中各个文档的标题,形成该事件的标题集合;通过对该标题集合中每N个标题获取其最长公共子序列,得到该标题集合的最长公共子序列集合;统计该最长公共子序列集合中各非空最长公共子序列的出现次数,选择出现次数最多的前K个高频最长公共子序列,从该前K个高频最长公共子序列中筛选出1个高频最长公共子序列作为该事件的话题表示。本发明无需人工干预,其中不存在人为因素,省时省力。因此,相比现有的技术,提高了针对事件的话题表示的可读性,经过筛选处理得到的话题表示也较精炼和准确。
-
公开(公告)号:CN106354870B
公开(公告)日:2019-07-12
申请号:CN201610828103.6
申请日:2016-09-18
Applicant: 中国科学院计算技术研究所
IPC: G06F16/25
Abstract: 本发明提供一种数据加载系统和方法。所述方法包括:多个数据加载节点中的一个接收加载请求;响应于该加载请求,在多个数据加载节点中启动与该加载请求相对应的加载服务进程,以及生成加载标识,该加载标识与该加载服务进程相关联;数据源节点基于所述加载标识获得所述加载服务进程的监听地址;数据源节点向该监听地址发送待加载数据;数据加载节点从该监听地址接收来自该数据源节点的待加载数据,以及按照设置的路由规则将数据转发至其他数据加载节点,或者将数据加载到相关联的存储设备。根据本发明的方法,可以提高数据加载的安全性和可靠性,避免采用硬件或者频繁启动加载而带来的损耗成本,并且利用并发的系统资源来执行数据加载的过程。
-
公开(公告)号:CN109819019A
公开(公告)日:2019-05-28
申请号:CN201811634634.7
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明涉及一种网络数据采集的监控与统计分析方法,包括:用户可查询采集节点的工作状态、调度节点的工作状态和采集任务的工作状态;对使用信源采集的结构化数据进行统计,以获取针对该信源的采集量,以及该信源的活跃等级,并根据该用户的查询请求,将该采集量和/或该活跃等级发送给该用户;通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,发现潜在失效信源,并推送给该用户,以辅助该用户对该信源进行管理。
-
公开(公告)号:CN109815387A
公开(公告)日:2019-05-28
申请号:CN201811637869.1
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/953
Abstract: 本发明涉及一种基于脚本的网页采集服务方法和系统,包括:客户端,服务前端和服务执行单元,服务执行单元处理服务请求的过程包括:根据脚本队列中采集脚本的顺序,调度脚本队列中位于队首的采集脚本作为执行脚本;解释执行执行脚本,当执行脚本执行到调用函数时,判断调用函数是否为采集函数,若是,则将采集网页的任务发给网页采集模块,对执行脚本指定的网址进行网页采集处理,得到网址的网页信息作为采集函数的返回值,否则执行调用函数调用的功能,并将执行结果作为调用函数的返回值。由此本发明可通过调用服务的方式处理复杂的网页采集任务,适应性更强。
-
公开(公告)号:CN109753797A
公开(公告)日:2019-05-14
申请号:CN201811503421.0
申请日:2018-12-10
Applicant: 中国科学院计算技术研究所
IPC: G06F21/56
Abstract: 本发明涉及一种针对流式图的密集子图检测方法和系统,包括:持续从社交网络获取三元组,该三元组由用户、对象和时间戳组成,以该三元组作为流式图建模为行增广矩阵;用滑动窗口访问行增广矩阵,并对每个窗口内的行增广矩阵进行奇异值分解,得到奇异矩阵,获取奇异矩阵的奇异向量对,根据向量阈值对该奇异向量对进行筛选,得到候选密集块及其密度;通过对候选密集块利用已有方法进一步进行密集子块筛选;最终密集块的用户为检测的异常用户、其中的目标物为检测的异常目标。本发明根据增广矩阵和滑动窗口对流式图建模,每次只存储一个步长的数据,每次检测一个窗口的数据,性能优于每插入一条新数据都要更新密集块的流式算法。
-
公开(公告)号:CN109753602A
公开(公告)日:2019-05-14
申请号:CN201811473591.9
申请日:2018-12-04
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9535 , G06Q50/00
Abstract: 本发明涉及一种基于机器学习的跨社交网络用户身份识别方法和系统,其中所述方法包括:包含跨网络用户信息的采集、文本分析精准用户身份对齐标注以及用户信息特征抽取模块,基于用户属性信息以及用户社交关系的对齐用户候选集的构建,基于用户属性信息、用户发布内容与用户社交表示特征拼接的精准用户身份对齐模型构建与参数学习,提供跨网络用户身份对齐的查询服务并构建跨网络综合用户画像。本发明通过对不同网络用户的属性集用户关注关系的特征拼接的精准身份对齐模型,实现跨网络用户身份对齐,构建更加详细的用户画像。
-
公开(公告)号:CN109741198A
公开(公告)日:2019-05-10
申请号:CN201811434864.9
申请日:2018-11-28
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种网络信息传播影响力度量方法、系统,包括:根据社交网络中消息传播的历史传播数据,构建节点和传播源的激活对;将社交网络中的用户作为节点,将给定消息的传播数据中参与时间为0的节点作为给定消息的传播源,通过聚合函数将传播源对节点的影响力进行聚合后通过影响力边际递减函数,得到节点在传播源下被激活的概率;以历史传播数据为训练数据,以概率的对数似然最大作为目标,对所有激活对使用随机梯度下降进行参数学习,得到节点间影响力,以得到传播源集合的影响力度量。本发明提出的基于数据驱动的影响力最大化方法直接基于本发明学习得到的影响力度量,对节点的边际效应进行估计,以高效地进行影响力最大化的节点集合选择。
-
公开(公告)号:CN106503256B
公开(公告)日:2019-05-07
申请号:CN201611005521.1
申请日:2016-11-11
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9535 , G06F16/9536 , G06Q50/00
Abstract: 本发明提供一种基于社交网络文档的热点信息挖掘方法,包括下列步骤:1)根据词项在热度统计窗口内的权重相对于该词项在语料库中的基准权重的波动程度,得出该词项在热度统计窗口内的热度;2)基于各个词项的热度排序,得出当前热度统计窗口内的热点词项。本发明能够提高社交网络中挖掘候选词的准确率;能够获得更准确的表达社交网络热点事件的语义。
-
公开(公告)号:CN105260374B
公开(公告)日:2019-03-15
申请号:CN201510423353.7
申请日:2015-07-17
Applicant: 中国科学院计算技术研究所
IPC: G06F16/27 , G06F16/2455
Abstract: 本发明适用于分布式信息处理技术领域,提供了一种异步流水线式的图查询方法,应用于分布式图数据库,包括:根据查询请求创建包含多个查询步骤的流水线;检测所述查询步骤的缓存队列,根据所述缓存队列的剩余元素的容量唤醒多个预取线程;创建异步化管理后端数据层的连接和查询的线程池,为所述流水线配置所述线程池容量,所述流水线末端获得查询的结果。借此,本发明提高了查询速度和客户端的吞吐率。
-
公开(公告)号:CN109213583A
公开(公告)日:2019-01-15
申请号:CN201810825619.4
申请日:2018-07-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种基于Linux内核技术通过软硬件协同支持读写性能隔离的I/O调度器,该I/O调度器是在Linux内核的现有I/O调度器中增加了四个单元,即包括有队列分配单元(10)、优先级设置单元(20)、队列延迟时间对比单元(30)和队列深度调节单元(40),同时将Linux内核现有的I/O软件队列(50)和I/O硬件队列(60)中的I/O优先级进行对接;旨在不修改上层应用的前提下,降低应用业务混部带来的性能干扰,即最大程度的做到混部应用的资源隔离。采用本发明设计的I/O调度器处理后能够在数据处理系统中的在线读负载和批量写负载混部,即读写I/O混部的情况下,保持写I/O性能不变的同时,将读I/O的性能提升。
-
-
-
-
-
-
-
-
-