一种基于聚类的文本查重方法

    公开(公告)号:CN106446148A

    公开(公告)日:2017-02-22

    申请号:CN201610839650.4

    申请日:2016-09-21

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种基于聚类的文本查重方法,方法步骤包括:1、数据采集处理将文本数据存储在数据库和文件服务器中,2、预处理对文本数据进行分词和特征向量提取;3、对数据库中已完成预处理的文本数据进行聚类,并计算出各类簇的中心特征向量;4、一次查重处理提取文本数据的特征向量,并与数据库中各类簇的中心向量进行比对,对于距离小于设定阈值的中心特征向量,对其类簇进行记录;5、二次查重处理对文本数据的特征向量与对应类簇中各文本数据的特征向量进行比对,对于距离小于一定阈值的特征向量,将其对应的文本数据记为重复文本数据,从而实现文本数据的查重处理。本发明可以减少不必要的重复性比对工作,提升文本查重效率。

    一种网络数据采集验证方法

    公开(公告)号:CN106570053A

    公开(公告)日:2017-04-19

    申请号:CN201610840743.9

    申请日:2016-09-22

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种网络数据采集验证方法,其实现过程为:首先采集网络数据,然后对采集数据中的互联网站点进行信息分类,按类别随机抽样;统计出所选类别内的网络数据量,再通过数据库操作脚本对库中存储的所采数据进行检索,统计出所选类别的采集量;将二者进行对比校验,得出所采数据的覆盖率,这里的覆盖率=所采数据量/实际数据量,以验证是否漏采。该网络数据采集验证方法与现有技术相比,结合了统计学的抽样调查理论,科学而合理的使所采集的大量数据得到了验证,同时也为后续的数据分析与挖掘工作提供了便利,实用性强,适用范围广泛,易于推广。

    一种信息安全识别方法和装置

    公开(公告)号:CN106066884A

    公开(公告)日:2016-11-02

    申请号:CN201610395206.8

    申请日:2016-06-06

    IPC分类号: G06F17/30 G06F21/60

    摘要: 本发明公开了一种信息安全识别方法及装置,该方法包括获取敏感信息;识别敏感信息中的风险内容;判断风险内容是否与第一数据库中存储的与敏感信息对应的风险内容一致,若是,则对敏感信息进行标识,其中,第一数据库中所存储的风险内容为可信任风险内容,对敏感信息进行标识是标识敏感信息为可信任敏感信息。该装置是实现上述信息安全识别方法的装置。与现有技术相比,采用本发明的技术方案,能够更全面的提高信息安全的识别,使用户在使用时安全性更高。本发明还相应的公开了一种信息安全识别装置。

    检索装置
    5.
    发明公开

    公开(公告)号:CN105027119A

    公开(公告)日:2015-11-04

    申请号:CN201380074191.X

    申请日:2013-03-04

    IPC分类号: G06F17/30

    摘要: 具有相似单词候选取得部(2)、相似单词选择部(4)以及名称检索部(5)。相似单词候选取得部(2)具有:单词语料库检索部(21),其进行输入字符串与单词语料库(3)中保存的单词字符串数据的对照,检索并取得与输入字符串相似的单词字符串数据来作为相似单词候选;以及相似单词候选数控制部(22),其按照预先设定的阈值从单词语料库检索部(21)取得的相似单词候选中选择相似单词候选;相似单词选择部(4)计算相似单词候选数控制部(2)选择出的各相似单词候选与输入字符串之间的编辑距离,选择计算出的编辑距离为规定的距离以内的相似单词候选来作为相似单词;名称检索部(5)参照名称检索用索引数据蓄积部(6),检索包含相似单词选择部(4)选择出的相似单词的检索文本。

    用于文档搜索的搜索高速缓存

    公开(公告)号:CN102419768A

    公开(公告)日:2012-04-18

    申请号:CN201110345038.9

    申请日:2011-10-28

    申请人: 微软公司

    IPC分类号: G06F17/30

    摘要: 本发明涉及用于文档搜索的搜索高速缓存。此处描述了包括在计算设备处接收来自用户的查询的方法。该方法还包括至少部分基于所接收的查询来执行对一个或多个文档的搜索,其中执行所述搜索包括使得处理器通过利用保留在所述计算设备上的搜索高速缓存来执行所述搜索,其中所述搜索高速缓存包括结果高速缓存、索引高速缓存、布尔高速缓存。

    一种基于移动终端的图片信息处理的方法及系统

    公开(公告)号:CN105159958B

    公开(公告)日:2019-07-09

    申请号:CN201510513559.9

    申请日:2015-08-20

    发明人: 雷明

    IPC分类号: G06F16/903 G06F16/9537

    摘要: 本发明公开了一种基于移动终端的图片信息处理的方法及系统,包括预先建立一个后端服务器,在后端服务器中维护物体的查询信息数据库;移动终端接收用户操作指令启动照相机,拍摄需要查询内容介绍的物体,并获取物体拍摄位置信息;移动终端根据用户拍摄物体照片内容以及物体拍摄位置信息,生成查询请求信息,并将查询请求信息发送至后端服务器;后端服务器根据查询请求信息,从维护的物体查询信息数据库中检索匹配出相应的物体内容介绍,并将物体内容介绍发送回移动终端,移动终端接收到信息并予以显示。采用了本发明能够使用户可以很容易地获取眼前所拍摄物体的内容介绍信息,避免用户花费过多的查询操作时间,为用户提供了方便。

    页面共享处理方法及装置

    公开(公告)号:CN104050189A

    公开(公告)日:2014-09-17

    申请号:CN201310081954.5

    申请日:2013-03-14

    IPC分类号: G06F17/30

    摘要: 本发明实施例提供一种页面共享处理方法及装置,该方法包括:获取候选页面所属的页面类别;将所述候选页面与所述页面类别所包括的多个页面进行比较,获取与所述候选页面具有相同内容的目标页面,并将所述候选页面和所述目标页面进行共享,其中,所有页面根据各页面的预设分类条件统计结果进行分类,同一页面类别所包括的各页面的预设分类条件统计结果满足预设条件。本发明实施例中,通过获取候选页面所属的页面类型,候选页面只需要与它所属页面类别中的页面进行比较,而无需与所有页面进行比较,这样减少了无效比较的次数,提高了效率,也降低了页面比较的开销。

    一种基于医疗系统的病例读取方法

    公开(公告)号:CN108287826A

    公开(公告)日:2018-07-17

    申请号:CN201610910240.4

    申请日:2016-10-19

    发明人: 姚娟娟

    IPC分类号: G06F17/30 G16H10/60

    CPC分类号: G06F16/3349 G06F16/3346

    摘要: 本发明提供一种基于医疗系统的病例读取方法,包括获取用户端提供的页面访问请求;若所述页面访问请求满足访问病例页面的触发条件,则确定与所述页面访问请求对应的页面信息,所述页面信息包括病例文本及锚文本,所述锚文本为所述病例文本中的至少一个关键词,所述病例页面基于所述页面信息被生成,并将所述病例页面提供给所述用户端;所述触发条件至少为:所述页面访问请求对应一个锚文本的入链请求且所述入链请求对应目标页面与当前页面属于不同的页面站点。本发明技术方案可以在分类处理大量医疗系统数据的基础上,提高系统提供反馈数据的准确性及效率。