-
公开(公告)号:CN103167029A
公开(公告)日:2013-06-19
申请号:CN201310070486.1
申请日:2013-03-06
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种eMule网络上特定资源的发现方法,包括下列步骤:1)针对所关注的关键词,构造与其对应的KAD虚拟节点,所构造的KAD虚拟节点的ID值与相应关键词的MD4哈希值相同或接近,使得二者的异或距离远远小于KAD真实节点ID之间的通常异或距离;2)对KAD虚拟节点进行初始化,使eMule网络的其它节点感知到所构造的KAD虚拟节点;3)利用所述的KAD虚拟节点监听涉及相应关键词的特定资源的资源发布消息。本发明有助于更全面地获取eMule网络特定资源的信息;时效性强,能够快速发现新发布的特定资源;能够对新出现而又危害巨大的特定资源做出迅速反应;在监控的同时,能够保证eMule网络的正常运作。
-
公开(公告)号:CN101841557B
公开(公告)日:2013-01-02
申请号:CN201010117154.0
申请日:2010-03-02
Applicant: 中国科学院计算技术研究所
IPC: H04N21/63 , H04N21/239 , H04L29/08 , H04L29/06
Abstract: 本发明公开了一种基于十字链表的P2P流媒体下载方法和系统。所述方法,包括下列步骤:用户节点采用十字链表数据结构为每个邻居节点维护一个邻居节点下载任务队列,为每个数据分片维护一个数据分片下载任务队列,并将两个队列存储于用户节点本身;所述用户节点在拥有预备下载的数据分片的邻居节点集合中,选择所述用户节点本地所维护的下载任务十字链表中相应邻居节点的下载任务队列中所有任务的估计完成时间最小的邻居节点,将该下载任务交给该节点完成所述数据分片的下载任务,同时更新所述邻居节点下载任务队列和数据分片下载任务队列。
-
公开(公告)号:CN101697553B
公开(公告)日:2012-07-11
申请号:CN200910235678.7
申请日:2009-10-12
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种P2P环境下的数据传输方法,包括:对所要传输数据做分割后得到多组子数据流;在用户所登录的用户节点以及该用户节点的邻居节点上维护推送记录表,所述推送记录表用于记录所在节点所要推送以及所要接收的子数据流的信息;所述邻居节点按照随机的顺序将不同组的子数据流推送给所述用户节点,所述用户节点接收子数据流后结合所述推送记录表中的信息为所述邻居节点分配该邻居节点负责推送的子数据流;所述用户节点接收并保存所述邻居节点所推送的数据。本发明将推策略与拉策略相结合,能够尽可能地减少数据分片丢失情况的出现。本发明通过竞争机制实现子数据流的分配,能够减少冗余数据包的传输,提高整个系统的性能。
-
公开(公告)号:CN100385442C
公开(公告)日:2008-04-30
申请号:CN200510011212.0
申请日:2005-01-20
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明涉及网络信息处理技术领域,是一种利用网络用户对网页之间相关性的潜在理解来优化网站链接结构的方法。该方法利用网站的服务器日志中蕴含的网络用户对网页之间相关性的潜在理解,从网站的服务器日志中抽取出用户主观上认为的网站链接结构,即虚拟链接结构;并将虚拟链接结构与网站的实际链接结构相比较,计算二者的匹配程度,匹配度越高,说明该网站的链接质量越好;最后将匹配结果量化,汇报给网站设计者。因为该方法是根据网络用户主观上对网站中各网页之间相关性的理解,去纠正网站设计者对网站链接结构的理解,所以能够真正地帮助网站设计者去优化网站链接结构,为用户提供更好的服务。
-
公开(公告)号:CN118445392A
公开(公告)日:2024-08-06
申请号:CN202410577965.0
申请日:2024-05-10
Applicant: 中国科学院计算技术研究所
IPC: G06F16/332 , G06F16/33 , G06F40/284 , G06F40/30
Abstract: 本发明提出一种面向网页的阅读理解模型的训练方法、装置、存储介质,该方法包括:获取网页基于DOM树结构的路径信息,利用该路径信息表征网页的逻辑结构信息表示;获取网页基于网页快照的坐标信息,利用该坐标信息表征网页的空间结构信息表示;获取网页中的提示词,利用该提示词对初始问题文本进行信息增强,得到目标问题文本;将该逻辑结构信息表示与该空间结构信息表示融合,输入到网页阅读理解模型中;以及将该目标问题文本与该网页内容文本拼接,输入到该网页阅读理解模型中,获取答案。该方法提升了模型的网页理解能力,进而提高答案的准确性和相关性。
-
公开(公告)号:CN110781367B
公开(公告)日:2023-10-20
申请号:CN201910909270.7
申请日:2019-09-25
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951 , G06F16/955
Abstract: 本发明提出一种基于中间人的互联网数据采集方法及系统,包括:通过安装中间人代理证书至网页信息采集设备,建立网页信息采集设备的中间人,网页信息采集设备访问互联网中网页信息时,中间人代理网页信息采集设备的全部网络流量;中间人获取包含待采集网页URL正则表达式的采集任务,捕获全部网络流量中符合URL正则表达式的流量,作为中间流量,并将采集任务注入中间流量的HTML页面中,得到待解析页面并将其存入第一数据库;解析模块根据第一数据库中待解析页面的URL信息,将待解析页面分发给解析器实例进行解析,从中获取包含结构化数据的网页采集结果并将其存入第二数据库。本发明能够支持所有依靠集成浏览器内核功能来提供信息的应用的数据采集。
-
公开(公告)号:CN110287378B
公开(公告)日:2021-10-19
申请号:CN201910441015.4
申请日:2019-05-24
Applicant: 中国科学院计算技术研究所
IPC: G06F16/901 , G06F16/2458
Abstract: 本发明提出一种基于动态代码生成的图计算方法及系统,包括:根据建图请求,构造包含图操作原语的中间图结构,并将中间图结构与图名关联后存入中间图缓存器;根据图算法请求,生成由外部代码字节码构成的图算法结构,发送至图算法缓存器;以执行请求检索中间图缓存器和图算法缓存器,得到待执行中间图结构、待执行图算法结构与参数列表组成的三元组,并在本地代码缓存器中检索三元组,得到本地代码缓存器中的执行对象,以执行得到结果。本发明在本地代码空间中注入生成代码,消除了数据交换的开销;构建了可二次编译的中间图结构,使图数据的访问代码可进行编译优化;同时增加了中间图结构缓存与图算法缓存,规避了图计算的预处理开销。
-
公开(公告)号:CN112287273A
公开(公告)日:2021-01-29
申请号:CN202011161426.7
申请日:2020-10-27
Applicant: 中国科学院计算技术研究所
IPC: G06F16/958 , G06F16/35 , G06F16/957 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种网站列表页面的分类方法,所述网站系基于超文本标记语言(HTML),方法包括:步骤100,获取网站页面集合,页面归属于同一网站;步骤200,提取每一网站页面的文档对象模型(Document Object Model,DOM)的树结构特征和页面文本特征,分别构成DOM树结构特征空间和页面文本特征空间;步骤300,在DOM树结构特征空间和页面文本特征空间针对DOM树结构特征和页面文本特征分别进行聚类,分别得到结构类簇和文本类簇;步骤400,根据网站页面的网址链接(URL),在结构类簇与文本类簇之间进行映射,当映射出现多对一的情况,则选择最大相交的结构类簇或者文本类簇,并找到所述最大相交的结构类簇或者文本类簇在网站中的最近公共父节点,该公共父节点即为列表页面。
-
公开(公告)号:CN111914152A
公开(公告)日:2020-11-10
申请号:CN202010615515.8
申请日:2020-06-30
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9532 , G06F16/33 , G06F16/35
Abstract: 本发明提出一种网络事件预警方法及系统,包括:针对现有网络事件预警技术在子指标的计算、指标权重的赋值、预警效果的评价方面缺乏足够客观性,进而影响预警准确率的问题,本发明提出一种网络事件预警方法及系统。在计算子指标方面,本发明充分考虑消息之间的相互影响,利用物理学中的安培定律,让预警结果尽可能地反应整个事件的走向,提升客观性,提高预警准确率。在通过子指标逐级向上计算父指标方面,本发明利用物理学中场的概念来分析指标之间的关系,并借用场的度量方法为子指标赋权重,不需要专家参与,提升赋值过程的客观性,提高预警准确率。在网络事件预警评价方面,本发明借鉴异常检测思想提出客观的预警评价方法,提高评价的准确率。
-
公开(公告)号:CN106844416B
公开(公告)日:2019-11-29
申请号:CN201611024146.5
申请日:2016-11-17
Applicant: 中国科学院计算技术研究所
IPC: G06F16/332 , G06F17/27
Abstract: 本发明提供一种子话题挖掘方法,包括:1)对语料库中每篇文档的每个词语的主题值进行初始化;2)基于当前的各篇文档的各个词语的主题值,对于每篇文章中的每个词语,分别计算该词语来自各个子话题的概率以及计算该词语来自背景模块的概率,然后基于所计算出的概率,利用吉布斯采样算法重新为每篇文章中的每个词语分配主题值;其中,词语来自背景模块的概率根据预先统计的背景模块中的词语分布向量计算,所述背景模块中的词语分布向量在迭代过程中始终恒定;3)如果满足停止迭代的条件则根据当前的的主题值信息得出LDA子话题,如果否,则回到步骤2)。本发明能够显著地提升针对专题文章集合的话题挖掘效果。
-
-
-
-
-
-
-
-
-