一种基于Kubernetes的脚本解释型服务代理方法和系统

    公开(公告)号:CN110557428B

    公开(公告)日:2021-08-24

    申请号:CN201910646748.1

    申请日:2019-07-17

    Abstract: 本发明涉及一种基于Kubernetes的脚本解释型服务代理方法和系统,该方法包括:设置一客户端,用于生成代理脚本并作为服务请求;设置一Kubernetes系统,并在该Kubernetes系统中部署若干服务;设置一服务执行单元,用于处理该服务请求,并返回处理结果至该客户端;该方法包括:函数绑定步骤,该服务执行单元根据一预设协议,定期查询API SERVER,获取该Kubernetes系统中的服务,并为每一服务绑定一函数名称;服务调用步骤,该服务执行单元接收并解析执行该客户端发送的该服务请求中的代理脚本,并在执行脚本的过程中,依据函数名调用Kubernetes中的服务。本发明有效解决了复杂服务以及远程和不可靠环境下的访问问题。

    一种网站列表页面的分类方法、系统及存储介质

    公开(公告)号:CN112287274A

    公开(公告)日:2021-01-29

    申请号:CN202011162449.X

    申请日:2020-10-27

    Abstract: 本发明涉及一种网站列表页面的分类方法,方法包括:步骤100,获取一组网站页面集合,网站页面集合归属于同一网站;步骤200,分别针对每一网站页面提取网页数据特征;步骤300,通过网站页面的超链接列表以及网站网页的链接地址(URL)与节点编号之间的匹配关系形成的哈希表,创建网站的全局拓扑结构;步骤400,将网页数据特征以及网站的全局拓扑结构输入图卷积神经网络进行图卷积神经网络的训练,得到网站列表页面分类器;步骤500,获取待分类的网站网页,分别根据待分类的网站网页的网页数据特征和网站的全局拓扑结构,并将待分类的网站网页的网页数据特征和网站的全局拓扑结构输入网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。

    大规模网络数据的多信息来源采集方法和系统

    公开(公告)号:CN109840298A

    公开(公告)日:2019-06-04

    申请号:CN201811637902.0

    申请日:2018-12-29

    Abstract: 本发明涉及一种大规模网络数据的多信息来源采集方法,包括:获取多种传媒上的网络数据所在的信源;生成采集任务,启动并初始化采集节点上的采集器;将该采集任务的参数配置信息加载至该采集器;以该采集器获取该信源的目标信息内容链接,并建立链接队列;以该采集器依次采集该链接队列中对应的目标信息内容为结构化数据;将该结构化数据进行持久化操作,并进行输出。本发明提出的方法可以感知信息来源的变化,能够定点定主题的获取信息来源的网络数据,并且具有泛化能力,采集能力与传媒种类无关。

    一种基于时间串的论坛页面信息自动抽取方法及系统

    公开(公告)号:CN104268148B

    公开(公告)日:2018-02-06

    申请号:CN201410429698.9

    申请日:2014-08-27

    Abstract: 本发明公开了一种基于时间串的论坛页面信息自动抽取方法及系统。该方法包括创建文件对象模型树,清除文件对象模型树中的无用标签和空标签,根据所述时间串,对所述文件对象模型树进行聚类,生成多个聚类集合,遍历所述聚类集合,获取最大簇,若所述最大簇只包含一个单独节点,则所述论坛页面为单楼页面,根据所述单独节点的时间串,获取所述单楼页面的发帖时间信息;遍历所述文件对象模型树,获取包含网页地址的新节点,通过关键字列表或正则式列表,对网页地址进行关键字查找或正则式查找;若网页地址包含关键字列表中的关键字或所述正则式列表中的正则式,则获取新节点及其子节点包含的文本信息,文本信息为所述单楼页面的用户名信息。

    大规模网络数据的感知与获取方法和系统

    公开(公告)号:CN109815382B

    公开(公告)日:2022-07-12

    申请号:CN201811634238.4

    申请日:2018-12-29

    Abstract: 本发明涉及一种大规模网络数据的感知与获取方法,包括:感知网络数据的信息来源并将其拆分为信源,对该信源设置采集策略;生成采集任务,注册采集节点,以该注册节点拉取采集器并对其进行配置;根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;监控该采集任务的执行状态,统计该结构化数据,并将监控结果和统计结果发送给用户。本发明的大规模网络数据感知与获取系统,按照不同的功能逻辑,划分为采集子平台、调度子平台、信源管理与配置子平台和监控与统计子平台,本系统是集大规模网络数据的感知发现、多信息来源的网络数据获取、高质量信息抽取及用户友好性交互界面于一体的通用大规模网络数据感知系统。

    一种大数据场景下的数据分割方法

    公开(公告)号:CN114491157A

    公开(公告)日:2022-05-13

    申请号:CN202210132296.7

    申请日:2022-02-14

    Abstract: 本发明实施例提供了一种大数据场景下的数据分割方法,包括:获取探测区间,确定待分割的数据集合中属于探测区间内的区内数据条数;在区内数据条数不处于预定的容忍范围内时,对探测区间的右端点进行一次或者多次指数型调整直至得到使得区内数据条数处于容忍范围内的右端点或者越过容忍范围;在指数型调整导致区内数据条数越过容忍范围时,以当前的探测区间的右端点以及前一个探测区间的右端点构成的区间为查找范围,通过二分查找法确定使得区内数据条数处于容忍范围内的右端点;根据探测区间的左端点以及使得区内数据条数处于容忍范围内的右端点确定的分割区间对数据集合进行分割。

    一种文本聚合方法以及文本推荐方法

    公开(公告)号:CN114443820A

    公开(公告)日:2022-05-06

    申请号:CN202210177000.3

    申请日:2022-02-25

    Abstract: 本发明提供了一种文本聚合方法以及文本推荐方法,该一种文本聚合方法包括获取待处理的文本;利用经改进的SimHash算法计算文本的指纹信息,其中,经改进的SimHash算法在对文本中相应词语的哈希值进行加权时,利用词语在该文本内的权值以及在该文本所处领域中该词语的领域权值进行加权;利用领域权值对文本的领域关联性进行打分,得到文本的领域分值;将文本的指纹信息分为多个指纹段,基于指纹段的数值构建倒排索引,其中,倒排索引对应的键值对中,键存储指纹段的数值,值存储文本相关信息,文本相关信息包括文本的指纹信息和领域分值;通过领域权重对文本进行打分,构建倒排索引,以避免后期推荐相似文本时重复处理数据库内的文本,极大地提升了处理效率。

Patent Agency Ranking