基于压缩图的数据存储方法、存储介质、存储装置和服务器

    公开(公告)号:CN110389953A

    公开(公告)日:2019-10-29

    申请号:CN201910508926.4

    申请日:2019-06-12

    Abstract: 本发明涉及一种基于压缩图的数据存储方法、系统和存储介质,该方法包括:步骤100,生成点表逻辑定义,根据该逻辑定义构建点表,并向该点集中插入数据;步骤200,生成边表逻辑定义,根据该逻辑定义构建边表,从所述点表中选择与该边表相关联的点表,并向所述边表中插入数据;步骤300,设置和执行压缩图定义命令,生成所述压缩图的建图逻辑,设置函数获取与所述压缩图定义关联的所述边表,形成边集聚合组,并生成与所述压缩图定义关联的所述点表的代理结构;步骤400,设置和执行压缩图重置命令,根据所述压缩图的建图逻辑构建所述压缩图。本方法降低了多次建图与建多类图的开销,增加了图构建的灵活性与表示性,减少了重复建图的排序工作量。

    一种基于动态代码生成的图计算方法及系统

    公开(公告)号:CN110287378A

    公开(公告)日:2019-09-27

    申请号:CN201910441015.4

    申请日:2019-05-24

    Abstract: 本发明提出一种基于动态代码生成的图计算方法及系统,包括:根据建图请求,构造包含图操作原语的中间图结构,并将中间图结构与图名关联后存入中间图缓存器;根据图算法请求,生成由外部代码字节码构成的图算法结构,发送至图算法缓存器;以执行请求检索中间图缓存器和图算法缓存器,得到待执行中间图结构、待执行图算法结构与参数列表组成的三元组,并在本地代码缓存器中检索三元组,得到本地代码缓存器中的执行对象,以执行得到结果。本发明在本地代码空间中注入生成代码,消除了数据交换的开销;构建了可二次编译的中间图结构,使图数据的访问代码可进行编译优化;同时增加了中间图结构缓存与图算法缓存,规避了图计算的预处理开销。

    一种新闻列表页判断方法及筛选新闻列表页的方法

    公开(公告)号:CN104182482B

    公开(公告)日:2018-05-22

    申请号:CN201410382359.X

    申请日:2014-08-06

    Abstract: 本发明提供一种新闻列表页判断方法及筛选新闻列表页的方法,该方法包括获取网页,判断所述网页是否为新闻网页;如果所述网页不是新闻网页,则在所述网页中采集子网页对各个子网页重复本判定流程;如果所述网页是新闻网页并且被判定为频道内新闻网页,则判断所述网页的父网页是否为新闻网页;如果所述父网页不是新闻网页,则记录所述网页与所述父网页的关联信息;以及根据所述关联信息判断出新闻列表页等步骤。利用本发明提供的方法找到新闻列表页之后,现有的新闻采集器可以直接将新闻列表页作为起始页采集新闻内容,从而提高新闻数据的采集效率。

    一种BT网络中热门种子文件获取方法

    公开(公告)号:CN103533048B

    公开(公告)日:2018-01-26

    申请号:CN201310475961.3

    申请日:2013-10-12

    Abstract: 本发明提供一种BT网络中热门种子文件获取方法,包括下列步骤:1)构造多个虚拟BT客户端,所述多个虚拟BT客户端的ID均匀分布在BT网络ID逻辑空间;2)各虚拟BT客户端监听BT网络中的get_peers消息,统计所收到的对应于每个infohash的get_peer消息的数目;3)定期统计所有虚拟BT客户端所接收到的对应于每个infohash的get_peer消息的数目,并根据get_peer消息的数目确定相应的infohash是否为热门infohash。本发明能够全面准确地获取整个BT网络范围内的热门种子文件。

    一种网页信息的抽取方法和系统

    公开(公告)号:CN103870506B

    公开(公告)日:2017-02-08

    申请号:CN201210548678.4

    申请日:2012-12-17

    Abstract: 本发明公开了一种网页信息的抽取方法和系统。包括:获得已标注网页,生成语义结构树,构建信息模式图,生成信息模式图中每个语义属性节点的语义属性节点信息,生成包装器,将包装器导出为包装器文件;构建用于抽取已标注网页的同类网页的抽取器;获得待抽取网页,抽取器在待抽取网页的DOM树中,从信息模式图的根语义属性节点开始逐层递归抽取信息模式图的每个语义属性节点对应的抽取数据区或者抽取迭代数据区;导出每个语义属性节点对应的抽取数据区或者抽取迭代数据区中的数据作为抽取结果。本发明具有较高的通用性、泛化能力、容错性、可扩展性以及较低的人工参与度,同时本发明也保证了在线抽取的效率,从而具有较高的实用性。

    一种基于时间串的论坛页面信息自动抽取方法及系统

    公开(公告)号:CN104268148A

    公开(公告)日:2015-01-07

    申请号:CN201410429698.9

    申请日:2014-08-27

    CPC classification number: G06F17/30876

    Abstract: 本发明公开了一种基于时间串的论坛页面信息自动抽取方法及系统。该方法包括创建文件对象模型树,清除文件对象模型树中的无用标签和空标签;根据所述时间串,对所述文件对象模型树进行聚类,生成多个聚类集合,遍历所述聚类集合,获取最大簇,若所述最大簇只包含一个单独节点,则所述论坛页面为单楼页面,根据所述单独节点的时间串,获取所述单楼页面的发帖时间信息;遍历所述文件对象模型树,获取包含网页地址的新节点,通过关键字列表或正则式列表,对网页地址进行关键字查找或正则式查找;若网页地址包含关键字列表中的关键字或所述正则式列表中的正则式,则获取新节点及其子节点包含的文本信息,文本信息为所述单楼页面的用户名信息。

    一种新闻列表页判断方法及筛选新闻列表页的方法

    公开(公告)号:CN104182482A

    公开(公告)日:2014-12-03

    申请号:CN201410382359.X

    申请日:2014-08-06

    CPC classification number: G06F17/30873 G06F17/30867 G06F17/30876

    Abstract: 本发明提供一种新闻列表页判断方法及筛选新闻列表页的方法,该方法包括获取网页,判断所述网页是否为新闻网页;如果所述网页不是新闻网页,则在所述网页中采集子网页对各个子网页重复本判定流程;如果所述网页是新闻网页并且被判定为频道内新闻网页,则判断所述网页的父网页是否为新闻网页;如果所述父网页不是新闻网页,则记录所述网页与所述父网页的关联信息;以及根据所述关联信息判断出新闻列表页等步骤。利用本发明提供的方法找到新闻列表页之后,现有的新闻采集器可以直接将新闻列表页作为起始页采集新闻内容,从而提高新闻数据的采集效率。

    一种短文本数据的事件演化分析方法

    公开(公告)号:CN103150383A

    公开(公告)日:2013-06-12

    申请号:CN201310082990.3

    申请日:2013-03-15

    Abstract: 本发明提供一种短文本数据的事件演化分析方法,包括:根据词库和当前时段输入的短文本数据构造当前时段的文档—词项矩阵并对其进行非负矩阵分解,得到文档—事件矩阵和事件—词项矩阵;根据事件—词项矩阵计算当前时段的事件和前一时段的事件之间的相似度,根据该相似度、当前时段的事件和前一时段的剩余图构造当前时段的事件关系图;当前时段的事件关系图分割为一个或多个子图;对子图进行归类得到新生成事件集和演化事件集;根据文档—事件矩阵计算每个事件关联的文档数,并根据该文档数做演化事件集的趋势分析和预测,作为下一时段非负矩阵分解的约束条件。该方法适于动态地跟踪短文本数据的事件演化过程。

    基于开放知识库的短文本语义概念自动化扩展方法及系统

    公开(公告)号:CN103150382A

    公开(公告)日:2013-06-12

    申请号:CN201310081984.6

    申请日:2013-03-14

    Abstract: 本发明公开了一种基于开放知识库的短文本语义概念自动化扩展方法,所述方法将每条短文本生成的n-gram集合中的每个元素链接到开放知识库中与该元素最相关的概念,并且基于开放知识库的概念关系矩阵和所链接的概念,为该元素生成扩展的语义概念集合。该方法仅采用开放知识库文档中的锚文本信息而不采用文档的词项信息和目录信息来构建概念关系矩阵,这使得该矩阵的构造和计算方便,而且克服了目录信息粒度比较粗,歧义多的问题。而且在语义概念扩展阶段,采用基于上下文的语义相似度计算方法来进行语义概念扩展,同时考虑了短文本内容的上下文内容的一致性和概念在抽象语义层的相似性,提高了语义概念扩展的准确性。

Patent Agency Ranking