-
公开(公告)号:CN109753602A
公开(公告)日:2019-05-14
申请号:CN201811473591.9
申请日:2018-12-04
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9535 , G06Q50/00
Abstract: 本发明涉及一种基于机器学习的跨社交网络用户身份识别方法和系统,其中所述方法包括:包含跨网络用户信息的采集、文本分析精准用户身份对齐标注以及用户信息特征抽取模块,基于用户属性信息以及用户社交关系的对齐用户候选集的构建,基于用户属性信息、用户发布内容与用户社交表示特征拼接的精准用户身份对齐模型构建与参数学习,提供跨网络用户身份对齐的查询服务并构建跨网络综合用户画像。本发明通过对不同网络用户的属性集用户关注关系的特征拼接的精准身份对齐模型,实现跨网络用户身份对齐,构建更加详细的用户画像。
-
公开(公告)号:CN109741198A
公开(公告)日:2019-05-10
申请号:CN201811434864.9
申请日:2018-11-28
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种网络信息传播影响力度量方法、系统,包括:根据社交网络中消息传播的历史传播数据,构建节点和传播源的激活对;将社交网络中的用户作为节点,将给定消息的传播数据中参与时间为0的节点作为给定消息的传播源,通过聚合函数将传播源对节点的影响力进行聚合后通过影响力边际递减函数,得到节点在传播源下被激活的概率;以历史传播数据为训练数据,以概率的对数似然最大作为目标,对所有激活对使用随机梯度下降进行参数学习,得到节点间影响力,以得到传播源集合的影响力度量。本发明提出的基于数据驱动的影响力最大化方法直接基于本发明学习得到的影响力度量,对节点的边际效应进行估计,以高效地进行影响力最大化的节点集合选择。
-
公开(公告)号:CN106503256B
公开(公告)日:2019-05-07
申请号:CN201611005521.1
申请日:2016-11-11
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9535 , G06F16/9536 , G06Q50/00
Abstract: 本发明提供一种基于社交网络文档的热点信息挖掘方法,包括下列步骤:1)根据词项在热度统计窗口内的权重相对于该词项在语料库中的基准权重的波动程度,得出该词项在热度统计窗口内的热度;2)基于各个词项的热度排序,得出当前热度统计窗口内的热点词项。本发明能够提高社交网络中挖掘候选词的准确率;能够获得更准确的表达社交网络热点事件的语义。
-
公开(公告)号:CN105260374B
公开(公告)日:2019-03-15
申请号:CN201510423353.7
申请日:2015-07-17
Applicant: 中国科学院计算技术研究所
IPC: G06F16/27 , G06F16/2455
Abstract: 本发明适用于分布式信息处理技术领域,提供了一种异步流水线式的图查询方法,应用于分布式图数据库,包括:根据查询请求创建包含多个查询步骤的流水线;检测所述查询步骤的缓存队列,根据所述缓存队列的剩余元素的容量唤醒多个预取线程;创建异步化管理后端数据层的连接和查询的线程池,为所述流水线配置所述线程池容量,所述流水线末端获得查询的结果。借此,本发明提高了查询速度和客户端的吞吐率。
-
公开(公告)号:CN109213583A
公开(公告)日:2019-01-15
申请号:CN201810825619.4
申请日:2018-07-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种基于Linux内核技术通过软硬件协同支持读写性能隔离的I/O调度器,该I/O调度器是在Linux内核的现有I/O调度器中增加了四个单元,即包括有队列分配单元(10)、优先级设置单元(20)、队列延迟时间对比单元(30)和队列深度调节单元(40),同时将Linux内核现有的I/O软件队列(50)和I/O硬件队列(60)中的I/O优先级进行对接;旨在不修改上层应用的前提下,降低应用业务混部带来的性能干扰,即最大程度的做到混部应用的资源隔离。采用本发明设计的I/O调度器处理后能够在数据处理系统中的在线读负载和批量写负载混部,即读写I/O混部的情况下,保持写I/O性能不变的同时,将读I/O的性能提升。
-
公开(公告)号:CN108874849A
公开(公告)日:2018-11-23
申请号:CN201810097136.7
申请日:2018-01-31
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种非等值关联子查询的优化方法和系统,其特征在于,包括:获取关联子查询的外表关联列的取值集;根据该关联子查询中操作符的类型和该取值集,建立该关联子查询的外表关联列到内表关联列分区的映射关系;根据得到的分区集合,对该关联子查询的内表进行分区,同时依据该关联子查询中内表的查询聚合函数,获取关联子查询在各分区的中间结果状态信息;根据该映射关系,遍历该外表关联列,通过聚合对应的分区集的中间结果状态信息,得到外表中各关联列对应的子查询结果。本发明具有的技术效果包括:通过对内表进行分区,并重复利用各分区的中间结果从而得到最终的子查询结果集,以提升查询性能。
-
公开(公告)号:CN108090222A
公开(公告)日:2018-05-29
申请号:CN201810011460.2
申请日:2018-01-05
Applicant: 中国科学院计算技术研究所 , 中科天玑数据科技股份有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种数据库集群节点间数据同步系统,涉及数据处理领域。所述系统包括配置单元、元数据存储单元、元数据判断单元、读写判断单元、Paxos同步单元、日志存储单元和日志重现单元。本发明解决了现有数据库同步方法中异步方式可能导致数据库集群数据不一致的问题,也解决了同步方式可能因为某个节点阻塞导致性能低下的问题;最后,本发明所述数据库集群节点间数据同步系统也支持不同方向的数据同步,没有只能将数据从主数据库同步到从数据库的限制。
-
公开(公告)号:CN104077417B
公开(公告)日:2018-05-22
申请号:CN201410342939.6
申请日:2014-07-18
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种社交网络中的人物标签推荐方法和系统,所述方法包括:基于被推荐用户的社交对象发布的文本内容,将社交对象划分为在语义空间上相似的多个类簇;其中,每个社交对象发布的文本内容由该社交对象发布的多个短文本消息组成。所述方法还包括:对于所述多个类簇中的每个类簇,将该类簇中的社交对象所对应的标签进行冗余处理,得到与该类簇对应的标签集合以提供给被推荐用户。本发明解决了现有人物标签推荐技术中,标签推荐质量不高的问题,以及能使标签推荐的结果更具个性化并且更加多样化。
-
公开(公告)号:CN104111973B
公开(公告)日:2017-10-27
申请号:CN201410269979.2
申请日:2014-06-17
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了本发明提供一种学者重名的消歧方法,包括:分类模型建立步骤和迭代消歧步骤;其中,分类模型建立步骤为基于异质学术网络数据,通过标注获取标注数据集,并基于标注数据集,构建文档对二元分类的训练数据集,并基于训练数据集采用分类算法进行二元分类模型训练,得到文档对二元分类模型;迭代消歧步骤为基于二元分类模型,采用迭代分类算法对需要消歧的数据集合进行迭代判别,得到最终对应真实学者的聚团,实现学者重名的消歧处理。本发明还公开了一种学者重名的消歧系统。
-
公开(公告)号:CN103853766B
公开(公告)日:2017-04-05
申请号:CN201210510056.2
申请日:2012-12-03
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种面向流式数据的在线处理方法,包括:步骤1,建立在线内存缓存层,对所述流式数据按照键值结构进行属性抽取后存储在所述在线内存缓存层中;步骤2,在所述内存缓存层中对所述流式数据建立混合索引结构;步骤3,对建立好索引结构的每条流式数据增加一个访问标志位,此标志位用于标志不同分析程序对于该流式数据的注册情况,同时对每一个分析程序访问流式数据的状态进行记录。步骤4,数据清理,若某流式数据被所述内存缓存层中的所有指定的分析程序访问过,则将该流式数据进行清理操作。本发明大幅度减小了流式处理过程中的数据读写压力,能够有效缓解大规模流式数据处理系统中数据库的压力,且能够提升流式数据的实时处理速度。
-
-
-
-
-
-
-
-
-