一种可视化的网页信息提取规则的构建方法和装置

    公开(公告)号:CN106570133A

    公开(公告)日:2017-04-19

    申请号:CN201610956895.5

    申请日:2016-10-27

    CPC classification number: G06F16/951

    Abstract: 本发明公开了一种可视化的网页信息提取规则的构建方法和装置。所述方法包括:根据用户选择的网页元素,利用网页节点分析算法获取网页元素的参数信息;根据获取到的网页元素参数信息,对相应的网页信息提取动作所需的配置参数进行填充;在预设的可视化的规则动作管理区,对所需的网页信息提取动作进行相应操作,生成相应地网页信息提取规则。本发明提供的可视化的网页信息提取规则的构建方法,既免除了用户对网页结构的分析,降低了用户的专业要求,又为用户在预设的可视化的规则动作管理区中,提供了方便操作的网页信息提取动作管理,大大降低了用户对网页信息提取规则的编写和维护的难度,提高了网页信息提取规则的构建效率。

    一种基于网页独立词的行业网站分类方法和系统

    公开(公告)号:CN106484919A

    公开(公告)日:2017-03-08

    申请号:CN201611004881.X

    申请日:2016-11-15

    Abstract: 本发明提供了一种基于网页独立词的行业网站分类方法,包括:根据已知网站样本库建立独立词特征库,独立词特征库包括用于判定网站类别的多个独立词和对应的多个独立词加权值;提取未知网站的网站首页中的独立词;以及将从未知网站提取的独立词与独立词特征库进行匹配,计算加权得分,并根据加权得分和预设阈值来生成判定结果。本发明简化了现有基于机器学习和空间向量分析对特定行业网站进行分类判定的过程和方法将网页关键特征进行了抽象和加权评分,排除了空间向量分析方法中的干扰向量维度,将多维空间降低到了二维空间进行分析判定,经过人为对独立词判定结果进行审核确认,提高了其判定的准确率和召回率。

    一种多维度检测违规音视频节目的方法

    公开(公告)号:CN105828189A

    公开(公告)日:2016-08-03

    申请号:CN201510004698.9

    申请日:2015-01-05

    Abstract: 本发明公开了一种多维度检测违规音视频节目的方法,利用关键词比对检测当前音视频节目中的违规关键词、获取当前音视频节目所属网站的音视频节目总数并将其记录、获取当前音视频节目所属网站的违规音视频节目总数并将其记录后;根据所述违规关键词数值、所述音视频节目总数、所述违规音视频节目总数等多维度的检测因子计算当前音视频节目是否违规;通过多维度的检测,来对违规的音视频节目进行检测和判定,进而节约了大量人力,提高了工作效率,节省了工作时间,提高了检测结果的准确性。

    一种增强Linux应用系统可靠性的方法与系统

    公开(公告)号:CN105549985A

    公开(公告)日:2016-05-04

    申请号:CN201410596956.2

    申请日:2014-10-29

    Abstract: 本发明公开了一种增强Linux应用系统可靠性的方法与系统,将Linux系统文件备份存储到存储设备第一分区中,将应用系统以及应用系统的配置信息备份存储到存储设备第二分区中,所述存储设备独立于普通磁盘;在Linux系统启动阶段,通过设置在存储设备上的程序,检测Linux系统文件、应用程序以及其配置信息的正确性,若不正确则分贝利用第一分区、第二分区备份文件进行恢复。实施本发明的有益效果是,提高了Linux应用系统本身的可靠性。

    一种基于Heritrix爬虫的分布式采集方法及系统

    公开(公告)号:CN105515815A

    公开(公告)日:2016-04-20

    申请号:CN201410555223.4

    申请日:2014-10-17

    Abstract: 本发明公开了一种基于Heritrix爬虫的分布式采集方法及系统,包括以下步骤:设置一个管理服务模块以及多个发布的Heritrix节点,管理服务模块监听到Heriteix节点信息后自动加入该节点并进行管理,初始种子以及节点任务,分配任务并生成配置文件;管理服务模块获取实际种子,Heritrix从实际种子的配置文件中获取实际种子,并从实际种子采集实际种子对应网页上生成的链接以及该链接对应的附加信息,Heritrix自动判别并抽取出满足条件的链接生成初始种子队列,Heritrix节点从初始种子获得实际种子信息,并解析其附加信息实施本发明的有益效果是,本申请有效实现了Heritrix的分布式采集,有效提高了系统工作系能。

    一种加密应用的内容获取系统及方法

    公开(公告)号:CN103780410A

    公开(公告)日:2014-05-07

    申请号:CN201210401185.8

    申请日:2012-10-19

    Abstract: 本发明涉及加密应用的内容获取系统及方法,其中加密应用的内容获取系统包括:内容审计装置,与内容审计装置连接的客户端,与客户端连接的服务器;客户端向服务器发送连接请求;内容审计装置包括连接模块、与连接模块连接的捕获模块、与捕获模块连接的判断模块、与判断单元连接的监控模块、与判断单元连接的欺骗包组装模块。通过采用本发明的加密应用的内容获取系统及方法,内容审计装置对客户端与服务器之间的传输数据进行监控,对客户端与服务器之间的加密应用,通过密匙进行解析,进而获得上网内容,实现全面完整的获取到客户端的上网内容。

    视频网站的信息抓取方法
    37.
    发明授权

    公开(公告)号:CN101937469B

    公开(公告)日:2012-09-05

    申请号:CN201010284859.1

    申请日:2010-09-15

    Abstract: 本发明涉及一种视频网站的信息抓取方法,其中包括步骤:S1、抓取视频网站的网页的源文件;S2、针对不同格式的网页,指定不同的正则表达式集合对所述网页的源文件中视频节目的属性信息进行定位,产生定位结果;S3、根据所述定位结果,将所述网页的源文件与所述正则表达式集合中的正则表达式进行匹配,产生匹配结果;S4、根据所述匹配结果,将所述网页的源文件中视频节目的属性信息存入相应的属性库中。采用本发明的视频网站的信息抓取方法可完整、方便的抓取视频网站中的全部视频信息,避免了现有的视频网站的信息抓取技术不能完整的获取视频网站节目的所有信息的缺陷。

    一种文字信息地域识别方法及装置

    公开(公告)号:CN102426603A

    公开(公告)日:2012-04-25

    申请号:CN201110356631.3

    申请日:2011-11-11

    Abstract: 本发明涉及一种文字信息地域识别方法及装置,其中识别方法包括步骤:A、获取待进行地域分析的文字信息,构建词向量序列;B、进行地域分层分析,得出地域分层路径;C、进行地域扩展分析,进一步得出相关的地域特征词;D、根据地域分层路径和由地域扩展分析得出的地域特征词,得到最优地域分层路径;E、构建第一主题词向量空间和第二主题词向量空间;F、对第一主题词向量空间和第二主题词向量空间进行相似度计算,根据最优地域分层路径和相似度计算结果判断文字信息所属地域。本发明实现了对信息内容所属地域进行了准确判断,这样不但判断更加准确,地域层次分明详细,还能排除与信息主题无关的地域特征词信息。

    网页邮箱识别分类方法及系统

    公开(公告)号:CN101937466B

    公开(公告)日:2011-11-30

    申请号:CN201010282298.1

    申请日:2010-09-15

    Abstract: 本发明构造一种网页邮箱识别分类方法,其中包括步骤:S0、读取网页邮箱的网页地址和所述网页邮箱的邮件内容的特征字符串,根据网页地址和所述特征字符串建立所述识别引擎和所述分析引擎;S1、用户收发邮件时,调用识别引擎识别当前访问的网页邮箱的类别;S2、根据网页邮箱的类别调用相应的分析引擎提取与特征字符串相应的邮件内容;S3、对邮件内容进行分类展示。本发明还构造了一种网页邮箱识别分类系统,采用本发明的网页邮箱识别分类方法及系统,通过对邮件内容中特征字符串的分析,根据网页邮箱的网页地址来建立分类,并从根据不同的分类建立特征字符串分析引擎,在用户收发邮件的时候通过识别网页地址链接来完成区分和对内容的提取。

    基于车联网大数据的车辆画像方法、系统以及存储介质

    公开(公告)号:CN117493968A

    公开(公告)日:2024-02-02

    申请号:CN202311523067.9

    申请日:2023-11-14

    Abstract: 一种基于车联网大数据的车辆画像方法、系统以及存储介质,方法包括:收集车辆在使用过程中产生的各种数据类型的原始车联网大数据;针对每一个数据类型,利用已有的数据从中提取出至少一种特征的数据;选取不同的数据类型进行组合得到不同的分组;将各个分组中的数据进行降维处理;对于每一个分组,为其所包含的每一个数据类型选取一个具体特征下的数据,选取完数据后进行聚类分析得到不同的分类;为每一个分组得到的分类按照该分组的数据类型据所共同表征的车辆特性进行定义得到车辆画像模型,并生成可视化报告;本发明既可以提高车辆画像的准确性又可以提高处理效率,形成对车辆的综合描述,能够满足不同应用场景的需求。

Patent Agency Ranking