一种融合词性与位置信息的词向量训练方法及系统

    公开(公告)号:CN107239444B

    公开(公告)日:2019-10-08

    申请号:CN201710384135.6

    申请日:2017-05-26

    IPC分类号: G06F17/27 G06K9/62

    摘要: 本发明公开了一种融合词性与位置信息的词向量训练方法及系统,该方法包括:对数据进行预处理得到目标文本;对目标文本进行分词和词性标注;对词性信息建模和对位置信息建模;在基于负采样策略的skip‑gram模型的基础上融合词性与位置信息进行词向量学习得到目标词向量,该目标词向量用于单词类比任务和单词相似度任务评估。本发明考虑了单词的词性信息及位置信息,且在对单词的词性和位置信息进行建模的基础上,充分利用单词的词性信息以及词性之间的位置信息来帮助词向量的训练,并且在训练的过程中对于参数的更新也更加合理。

    一种基于用户动机倾向性的标签推荐方法及系统

    公开(公告)号:CN102262653B

    公开(公告)日:2013-09-18

    申请号:CN201110154353.3

    申请日:2011-06-09

    IPC分类号: G06F17/30

    摘要: 本发明提供了一种基于用户动机倾向性的标签推荐方法,该方法根据用户三元组,计算用户的动机倾向性、每个已标注资源的动机倾向性和待标注资源的动机倾向性;在已标注资源中选择与待标注资源的动机倾向性相似的资源,得到非用户依赖相似资源;在非用户依赖相似资源中选择与用户的动机倾向性相似的资源,得到标签推荐候选资源;将标签推荐候选资源中的所有标签合并,得到合并标签集;计算合并标签集中每个标签的推荐重要性;最后按照每个标签的推荐重要性从大到小,进行标签推荐。本发明能够识别用户标注网络信息资源的动机,推荐给用户一个符合用户意图的多个标签组成的列表。本发明同时还提供了基于该方法的标签推荐系统。

    网站支撑数据库安全搜索引擎系统

    公开(公告)号:CN101320373B

    公开(公告)日:2011-05-18

    申请号:CN200810048012.6

    申请日:2008-06-13

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种网站支撑数据库安全搜索引擎系统。系统对网站支撑数据库存放的网页文本信息的访问角色信息和显示网址进行描述;直接对网页文本信息建立索引,索引中包含显示网址信息和访问角色信息;按照用户提交的查询关键字从牵引库中获取匹配的记录,根据用户所对应的访问控制规则对匹配记录进行过滤,并返回给用户;用户通过原始页面查看网页文本信息。本发明实现对网站文本信息的深度、全面搜索,索引中包含网页文本信息的访问角色信息,用户只能查看到其权限许可范围内的网页文本信息,实现安全搜索,索引中包含网页文本信息的显示网址信息,用户通过显示网址信息在原始页面中查看网页文本信息,继承传统搜索引擎突出的优点,符合用户操作习惯。

    分布式密文全文检索系统

    公开(公告)号:CN101561815A

    公开(公告)日:2009-10-21

    申请号:CN200910062129.4

    申请日:2009-05-19

    IPC分类号: G06F17/30

    摘要: 本发明提供的一种分布式的密文全文检索系统,该系统包括数据库、登录模块、查询模块、结果集显示模块、文档管理模块、索引模块、审计管理模块、用户管理模块和权限管理模块;其中查询模块包括查询分词模块、查询加密模块、查询子模块、访问控制模块、密文检索词哈希模块、结果集合并模块和结果集排序模块,索引模块包括索引分词模块、索引加密模块、构建分布式索引模块和密文索引词哈希模块。本发明对文档信息进行加密处理并分布式地存储、对索引词加密并分发到不同的服务器上构建分布式的密文索引库、将分级访问控制加入到索引库中提高全文检索的安全性和有效性。本发明系统可以实现分布式环境下密文的全文信息检索,保证了敏感数据的安全性检索,本发明系统具有安全性强、执行效率高、可扩展性强的特点。

    一种基于链接分析的域名层级结构探测方法

    公开(公告)号:CN108804576A

    公开(公告)日:2018-11-13

    申请号:CN201810504726.7

    申请日:2018-05-22

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种基于链接分析的域名层级结构探测方法,包括:对初始URL进行数据爬取并跟踪链接进行深度分布式爬取,得到待分析机构的域名集合与域名链接关系;利用待分析机构的域名集合与域名链接关系构建链接网络有向图,利用链接网络有向图进行聚类计算,得到聚类结果,计算链接有向图中每个节点的重要度;利用聚类结果和链接有向图中每个节点的重要度对链接网络有向图进行有向图边加权,得到加权有向图;在加权有向图上使用基于最短路的算法计算节点从属关系,得到待分析机构的域名从属关系树形结构。本发明具有较高的数据爬取效率和域名采集覆盖率;本发明在保证结构提取高效性的同时,也极大提高了域名从属关系探测的准确率。

    一种支持访问控制的索引结构的检索方法

    公开(公告)号:CN101714172B

    公开(公告)日:2012-03-21

    申请号:CN200910272749.0

    申请日:2009-11-13

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种支持访问控制的索引结构及检索方法,索引结构包括索引词表和记录信息表。索引词表中包含有访问控制域和级别域,访问控制域里的索引词的格式为 ,访问控制域与级别域的索引词后面所指向的纪录信息表由位图组成。本发明公开的索引构建过程包括普通域索引和访问控制域及级别域的构建过程,访问控制域的构建过程通过扫描本发明描述的角色树来实现。本发明公开的检索过程包括普通域及访问控制域和级别域的检索,把普通域检索到的结果与访问控制域和级别域的结果求交集来实现对访问控制信息的过滤。本发明解决了涉密文档检索效率与访问控制安全之间的矛盾,适用于高安全需求领域及涉密单位的检索要求。

    一种分布式安全检索系统

    公开(公告)号:CN101694672B

    公开(公告)日:2011-05-18

    申请号:CN200910272426.1

    申请日:2009-10-16

    IPC分类号: G06F17/30 G06F21/00

    摘要: 本发明公开了一种分布式安全检索系统,属于计算机信息检索技术领域,包括用户客户端,向管理服务器发起索引和检索请求;管理服务器,分布用户客户端的索引和检索指令到索引服务器,接收处理结果并返回给用户客户端;索引服务器,存储分布式密文倒排索引,接收管理服务器提交的索引和检索指令,并返回结果;加密服务器,接收管理服务器加密请求,按指定密钥对索引词和检索词进行加密,并返回加密后的信息;密钥矩阵,存储索引词和检索词的加密密钥。本发明还进一步提出了适用于所述系统的索引和检索方法。本发明可以实现大规模涉密文档的高效检索和安全性要求,同时降低了密文倒排索引遭受统计攻击的风险,而且优化了管理服务器的通信负载。

    基于并行编程模式的相似网页去重系统

    公开(公告)号:CN101645082A

    公开(公告)日:2010-02-10

    申请号:CN200910061694.9

    申请日:2009-04-17

    IPC分类号: G06F17/30

    摘要: 本发明提出的基于并行编程模式的相似网页去重系统,包括网页内容预处理模块、网页特征向量提取模块、网页特征指纹计算模块、网页指纹在线去重模块、网页指纹分布式批处理去重模块、基于特定分布式计算平台。该系统能够完成对网络爬虫爬行获得的网页进行文本内容编码的统一转换、文档结构的规范化、舍弃网页噪声内容和分析识别网页的主题内容、连续文本内容的词项切分等环节、形成能够代表网页的特征向量。针对该向量可以使用相关的算法得到代表网页特征的网页指纹。本发明设计提出的系统在互联网海量数据量的情况下,准确、快速地探测由于网站镜像和网络文档转载等因素造成的网页内容完全重复或近似重复,并完成相应的去重工作,从无提高搜索引擎的存储效率,给搜索引擎带来更好的用户体验。

    基于社会标注的主题爬虫系统

    公开(公告)号:CN101561814A

    公开(公告)日:2009-10-21

    申请号:CN200910062020.0

    申请日:2009-05-08

    IPC分类号: G06F17/30

    摘要: 一种基于社会标注的主题爬虫系统,包括页面获取模块,页面处理模块,相关度计算模块,存储模块,链接提取模块和链接分析模块。系统充分利用了网页的社会标注,是对页面内容公认的描述,更加贴近网页描述的真实内容,利用此性质来进行网页相关性的判断,将其应用在网络主题爬虫中,指导爬虫的爬行方向,对主题搜索引擎提供优质的网页数据内容。本发明很好地利用了网络带宽资源,在网页获取的过程中减少了不必要的开销,针对不同的需求采用不同的存储方式,减少了IO的消耗,采用了多级缓存机制,减少了阻塞,提高了爬虫的效率。该系统在社会标注的支撑下,优化了爬虫架构,为后续主题搜索引擎其他处理流程提供最佳的网页数据集。

    一种基于融合词性和语义信息的Skip-gram模型的情感分析方法

    公开(公告)号:CN108733653B

    公开(公告)日:2020-07-10

    申请号:CN201810481860.X

    申请日:2018-05-18

    IPC分类号: G06F40/284 G06F16/35

    摘要: 本发明公开了一种基于融合词性和语义信息的Skip‑gram模型的情感分析方法,包括:数据预处理、词性信息建模、词向量表示、语义信息建模、情感分析五个步骤。其中数据预处理包括过滤、分词、词性标注;词性信息建模包含基于上下文对词性信息建模;词向量表示模块在融合词性信息的Skip‑gram模型上进行向量训练;语义信息建模模块包括融合情感语义信息的文本表示。同现有技术相比,本发明考虑了单词的词性信息及情感语义信息,且在对单词的词性信息建模和融合语义信息的基础上,充分利用单词的词性信息帮助词向量训练以及情感语义先验信息帮助文本向量的学习,使得表示的文本向量更加符合语言学特征,对于情感分析有很好的结果。