Patent search ap:("中国科学院计算技术研究所" OR "国家计算机网络与信息安全管理中心") AND inv:"刘悦" Page 12

111.

发明公开
一种从单记录网页中抽取规律噪音的方法有权许可

公开(公告)号：CN103064966A

公开(公告)日：2013-04-24

申请号：CN201210592795.0

申请日：2012-12-31

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 李海燕 , 郭岩 , 万圣贤 , 郭少华 , 刘悦 , 余智华

IPC: G06F17/30

Abstract: 本发明提供一种从单记录网页中抽取规律噪音的方法，所述方法包括：首先将多个单记录网页转化为DOM树，并且将所述DOM树按照结构进行分类；然后，将同一类别的DOM树进行对齐合并得到站点板块风格树；在所述站点版块风格树中定位网页正文标题节点的近似位置和网页正文主体节点的近似位置，最后根据所述网页正文标题节点和所述网页正文主体节点的近似位置，抽取正文前、正文中和正文后的规律噪音。所述方法减少了建站点版块风格树所需的空间资源、降低了可能出现的漏抽取的情况，加快了抽取速度；此外，本发明的抽取结果具有较高的准确性，取得了较好的效果，并且可靠性高。

112.

发明公开
社会标签自动标注的方法以及社会标签自动标注器有权许可复审申请

公开(公告)号：CN102289514A

公开(公告)日：2011-12-21

申请号：CN201110263798.5

申请日：2011-09-07

Applicant: 中国科学院计算技术研究所

Inventor： 刘盛华 , 程学旗 , 郭嘉丰 , 刘悦 , 廖华明 , 朱亚涛

IPC: G06F17/30

Abstract: 本发明提供一种社会化标签自动标注的方法。该方法包括计算标签词项在文档中的频率(TF)权重，以及由协同过滤CF、一致性话题模型Corr-LDA方法所得的标签权重，并归一化；对上述权重建立线性融合权值模型，并估计线性融合参数；以及基于线性融合模型对社会标签进行自动标注。该发明同时考虑了社会标签与文档具体内容的一致性和抽象语义层的相关性，因此能够提高社会标签自动标注的准确性。

113.

发明公开
P2P中资源下载方法及其系统有权

公开(公告)号：CN101741750A

公开(公告)日：2010-06-16

申请号：CN201010034234.X

申请日：2010-01-15

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 叶靖 , 吕建明 , 李静远 , 刘悦 , 张铁赢 , 李哲中

IPC: H04L12/56 , H04L1/22 , H04L29/08

Abstract: 本发明涉及一种P2P中资源下载方法及其系统，方法包括：步骤1，节点根据物理网络信息和预设的节点组划分标准选择加入的节点组；步骤2，发生数据请求的节点为用户节点，用户节点获得拥有请求数据的备选节点，备选节点组成备选节点集合；步骤3，用户节点依据用户节点所属的节点组，以及备选节点同所述用户节点间的连接质量，从备选节点集合中选择备选节点，被选择的备选节点作为资源节点；步骤4，用户节点从所述资源节点下载请求的数据。本发明能够在选择节点进行下载时应用物理层网络拓扑结构。

114.

发明授权
一种文本聚合方法以及文本推荐方法有权

公开(公告)号：CN114443820B

公开(公告)日：2025-02-07

申请号：CN202210177000.3

申请日：2022-02-25

Applicant: 中国科学院计算技术研究所

Inventor： 贺广福 , 薛源海 , 陈翠婷 , 俞晓明 , 刘悦 , 沈华伟 , 程学旗

IPC: G06F16/334 , G06F16/3332 , G06F16/31 , G06F40/216 , G06F40/237 , G06F40/284

Abstract: 本发明提供了一种文本聚合方法以及文本推荐方法，该一种文本聚合方法包括获取待处理的文本；利用经改进的SimHash算法计算文本的指纹信息，其中，经改进的SimHash算法在对文本中相应词语的哈希值进行加权时，利用词语在该文本内的权值以及在该文本所处领域中该词语的领域权值进行加权；利用领域权值对文本的领域关联性进行打分，得到文本的领域分值；将文本的指纹信息分为多个指纹段，基于指纹段的数值构建倒排索引，其中，倒排索引对应的键值对中，键存储指纹段的数值，值存储文本相关信息，文本相关信息包括文本的指纹信息和领域分值；通过领域权重对文本进行打分，构建倒排索引，以避免后期推荐相似文本时重复处理数据库内的文本，极大地提升了处理效率。

115.

发明授权
一种网站列表页面的分类方法、系统及存储介质有权

公开(公告)号：CN112287274B

公开(公告)日：2022-10-18

申请号：CN202011162449.X

申请日：2020-10-27

Applicant: 中国科学院计算技术研究所

Inventor： 孟剑 , 樊晓然 , 郭岩 , 贺广福 , 陈银鹏 , 史存会 , 俞晓明 , 刘悦 , 程学旗

IPC: G06F16/958 , G06F16/35 , G06F16/957 , G06N3/04 , G06N3/08

Abstract: 本发明涉及一种网站列表页面的分类方法，方法包括：步骤100，获取一组网站页面集合，网站页面集合归属于同一网站；步骤200，分别针对每一网站页面提取网页数据特征；步骤300，通过网站页面的超链接列表以及网站网页的链接地址(URL)与节点编号之间的匹配关系形成的哈希表，创建网站的全局拓扑结构；步骤400，将网页数据特征以及网站的全局拓扑结构输入图卷积神经网络进行图卷积神经网络的训练，得到网站列表页面分类器；步骤500，获取待分类的网站网页，分别根据待分类的网站网页的网页数据特征和网站的全局拓扑结构，并将待分类的网站网页的网页数据特征和网站的全局拓扑结构输入网站列表页面分类器，判断该待分类的网站网页是否为网站列表页面。

116.

发明授权
一种网站列表页面的分类方法、系统及存储介质有权

公开(公告)号：CN112287273B

公开(公告)日：2022-09-30

申请号：CN202011161426.7

申请日：2020-10-27

Applicant: 中国科学院计算技术研究所

Inventor： 孟剑 , 郭岩 , 贺广福 , 陈银鹏 , 史存会 , 俞晓明 , 刘悦 , 程学旗

IPC: G06F16/958 , G06F16/35 , G06F16/957 , G06N3/04 , G06N3/08

Abstract: 本发明涉及一种网站列表页面的分类方法，所述网站系基于超文本标记语言(HTML)，方法包括：步骤100，获取网站页面集合，页面归属于同一网站；步骤200，提取每一网站页面的文档对象模型(Document Object Model，DOM)的树结构特征和页面文本特征，分别构成DOM树结构特征空间和页面文本特征空间；步骤300，在DOM树结构特征空间和页面文本特征空间针对DOM树结构特征和页面文本特征分别进行聚类，分别得到结构类簇和文本类簇；步骤400，根据网站页面的网址链接(URL)，在结构类簇与文本类簇之间进行映射，当映射出现多对一的情况，则选择最大相交的结构类簇或者文本类簇，并找到所述最大相交的结构类簇或者文本类簇在网站中的最近公共父节点，该公共父节点即为列表页面。

117.

发明授权
基于压缩图的数据存储方法、存储介质、存储装置和服务器有权

公开(公告)号：CN110389953B

公开(公告)日：2021-10-29

申请号：CN201910508926.4

申请日：2019-06-12

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 郑天祺 , 王征 , 赵程 , 张志斌 , 刘悦 , 赵鹏 , 郭嘉丰

IPC: G06F16/22

Abstract: 本发明涉及一种基于压缩图的数据存储方法、系统和存储介质，该方法包括：步骤100，生成点表逻辑定义，根据该逻辑定义构建点表，并向该点集中插入数据；步骤200，生成边表逻辑定义，根据该逻辑定义构建边表，从所述点表中选择与该边表相关联的点表，并向所述边表中插入数据；步骤300，设置和执行压缩图定义命令，生成所述压缩图的建图逻辑，设置函数获取与所述压缩图定义关联的所述边表，形成边集聚合组，并生成与所述压缩图定义关联的所述点表的代理结构；步骤400，设置和执行压缩图重置命令，根据所述压缩图的建图逻辑构建所述压缩图。本方法降低了多次建图与建多类图的开销，增加了图构建的灵活性与表示性，减少了重复建图的排序工作量。

118.

发明授权
大规模网络数据的多信息来源采集方法和系统有权

公开(公告)号：CN109840298B

公开(公告)日：2021-09-24

申请号：CN201811637902.0

申请日：2018-12-29

Applicant: 中国科学院计算技术研究所

Inventor： 史存会 , 程学旗 , 孟剑 , 俞晓明 , 郭岩 , 贺广福 , 周秀花 , 余智华 , 刘悦

IPC: G06F16/951 , G06F16/955

Abstract: 本发明涉及一种大规模网络数据的多信息来源采集方法，包括：获取多种传媒上的网络数据所在的信源；生成采集任务，启动并初始化采集节点上的采集器；将该采集任务的参数配置信息加载至该采集器；以该采集器获取该信源的目标信息内容链接，并建立链接队列；以该采集器依次采集该链接队列中对应的目标信息内容为结构化数据；将该结构化数据进行持久化操作，并进行输出。本发明提出的方法可以感知信息来源的变化，能够定点定主题的获取信息来源的网络数据，并且具有泛化能力，采集能力与传媒种类无关。

119.

发明授权
一种基于Kubernetes的脚本解释型服务代理方法和系统有权

公开(公告)号：CN110557428B

公开(公告)日：2021-08-24

申请号：CN201910646748.1

申请日：2019-07-17

Applicant: 中国科学院计算技术研究所

Inventor： 张凯 , 程学旗 , 俞晓明 , 刘悦 , 孙海洲

IPC: H04L29/08 , H04L29/06

Abstract: 本发明涉及一种基于Kubernetes的脚本解释型服务代理方法和系统，该方法包括：设置一客户端，用于生成代理脚本并作为服务请求；设置一Kubernetes系统，并在该Kubernetes系统中部署若干服务；设置一服务执行单元，用于处理该服务请求，并返回处理结果至该客户端；该方法包括：函数绑定步骤，该服务执行单元根据一预设协议，定期查询API SERVER，获取该Kubernetes系统中的服务，并为每一服务绑定一函数名称；服务调用步骤，该服务执行单元接收并解析执行该客户端发送的该服务请求中的代理脚本，并在执行脚本的过程中，依据函数名调用Kubernetes中的服务。本发明有效解决了复杂服务以及远程和不可靠环境下的访问问题。

120.

发明授权
用于大规模网络数据采集的信源管理与配置方法和系统有权

公开(公告)号：CN109753596B

公开(公告)日：2021-05-25

申请号：CN201811637397.X

申请日：2018-12-29

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 郭岩 , 贺广福 , 周秀花 , 俞晓明 , 史存会 , 孟剑 , 姜世勇 , 肖若晗 , 赵岭 , 张乐 , 焦利颖 , 周映彤 , 余智华 , 刘悦

IPC: G06F16/95

Abstract: 本发明涉及一种网络数据采集的信源管理与配置方法，包括：感知网络数据的信息来源，将该信息来源拆分为传媒、信簇和信源；根据信簇类别对该信簇进行类别标注；根据信源类别对该信源进行类别标注；根据该信源的信源类别配置采集模板；根据该信源所包含的网络数据配置抽取模板；当验证该信源为潜在失效信源时，将该信源置为无效，或重新配置该采集模板和/或该抽取模板。本发明的信源管理与配置系统，通过“传媒‑信簇‑信源”三级结构的分层概念体系和多维度的信息来源分类体系对来自不同类型的信息来源进行合理高效组织，进而实现对大规模网络信息来源的精确感知并设计采集策略。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification