海量文档分布式检索排重系统和方法

    公开(公告)号:CN103577418B

    公开(公告)日:2016-12-21

    申请号:CN201210256159.0

    申请日:2012-07-24

    Abstract: 一种海量文档分布式检索排重系统,包括文档预处理模块、文档特征计算模块、分布式建库模块、存储模块、分布式检索模块、相似度计算模块。文档特征计算模块根据词对文档的重要程度计算文档特征向量。分布式建库模块根据文档特征向量将文档映射到不同的存储分区。分布式检索模块检索目标文档所属的若干个分区,相似度计算模块计算目标文档与这若干个分区中所有文档的相似度,从而实现海量文档分布式排重操作。所提供的海量文档分布式检索排重系统和方法,借助了分布式系统的思想,将海量文档集分散到若干个子集中,使得排重计算在1个或少数几个子集中进行,减少了相似度计算量,提高了文档排重效率。

    基于脚本引擎的微博用户关系采集方法

    公开(公告)号:CN103377207B

    公开(公告)日:2016-12-07

    申请号:CN201210114869.X

    申请日:2012-04-17

    Inventor: 都云程

    Abstract: 本发明涉及信息采集技术领域,公开了一种基于脚本引擎的微博用户关系采集方法,该方法包括步骤:S1,采用脚本引擎技术自动登录微博客网站;S2,采用网页采集方式对特定账户信息爬取其对应内容页面信息;S3,元数据解析,获取用户列表、用户行为机制及用户基本信息;S4,实现用户关系抽取;S5,使用广度优先遍历用户列表,丰富用户关联关系。本发明提供的采集方法克服了API访问限制问题,有利于微博客信息的规模化采集,同时也提高了信息采集的精确度。

    一种保护大模型提示词安全性的方法及系统

    公开(公告)号:CN119323059A

    公开(公告)日:2025-01-17

    申请号:CN202411877376.0

    申请日:2024-12-19

    Abstract: 本发明属于自然语言处理技术安全领域,提出了一种保护大模型提示词安全性的方法及系统,通过设置由不同功能模块构成的提示词模板,每个模块具有特定的输入和输出规范,实现了提示词的标准化和模块化设计;通过将提示词模板拆解为可配置提示词模板结构,再通过动态合成技术,允许在保持核心提示词结构不变的同时,允许甲方调整提示词的部分内容,以适应不同的应用场景和甲方需求;通过水印技术和加密技术有效防止了提示词的泄露,并有效防止了未授权的提示词使用,增强了知识产权保护;同时使用透明化大模型,可以随意更改底层模型,降低了模型不合适而导致的重复开发和资源浪费。

    一种基于互联网公开数据的企业关联信息挖掘方法

    公开(公告)号:CN117909559B

    公开(公告)日:2024-08-20

    申请号:CN202410170696.6

    申请日:2024-02-06

    Abstract: 本发明属于数据挖掘领域,提出了一种基于互联网公开数据的企业关联信息挖掘方法,通过搜索引擎自动搜索目标企业相关信息,获取特征信息,采集目标企业互联网公开数据,使用NLP技术处理采集的互联网公开数据,挖掘企业间关联关系,并分别从面向标题和面向段落的企业实体识别规则进行分阶段的提取,其对面向标题的企业实体识别规则中添加了价值判断,实现了自动且准确的从互联网采集数据中发掘企业关联信息,最大程度的解决了现有企业关联信息获取方法中存在的个人主观因素影响较大、特定站点数据不够全面、验证环节困难等问题。

    基于图神经网络的文档处理方法、装置和存储介质

    公开(公告)号:CN112214993B

    公开(公告)日:2024-02-06

    申请号:CN202010916293.3

    申请日:2020-09-03

    Abstract: 本发明属于文档处理和检索技术领域,为了解决现有基于传统的关键词检索技术,无法挖掘词语、句子、文档之间的语义关系,检索效果差的技术问题;本发明一种基于图神经网络的文档处理方法、装置、电子装置和非易失性计算机存储介质,所述方法采用基于有监督学习的图神经网络技术将语义词图生成深度语义向量,应用二值化编码器技术,将语义向量转化为二进制编码形式,进而生成字符特征向量,并构建倒排索引;使得处理后的文档,在检索过程中,能够基于字符特征索引和检索技术进行高性能检索与语义匹配,有效地提升语义检索结果相关性。

    Java程序的启动方法及装置、电子装置、非易失性存储介质

    公开(公告)号:CN112214253B

    公开(公告)日:2024-02-02

    申请号:CN202010955573.5

    申请日:2020-09-11

    Inventor: 肖锋 李银松 程涛

    Abstract: 本发明属于计算机技术领域,为了解决现有基于Java运行环境开发的应用程序,存在需要用户提前手动安装Java运行环境,并可能带来安装不成功的技术问题;本发明提供一种Java程序的启动方法及装置,所述Java程序的启动方法包括:接收带有表征Java程序对应配置文件的可执行文件,其被配置在可执行文件的签名证书中;运行可执行文件,并从带有表征Java程序对应配置文件中解析对应的Java程序下载地址,基于Java程序下载地址获取预定Java程序包;安装通过Java程序下载地址获取的预定Java程序包,生成Java运行需要的环境并启动Java程序。因此,能够不更改可执行性文件的签名的有效性,实现在没有预装Java运行环境的装置上,可以让Java程序能够简便、正确的启动。

    一种百亿级图像快速搜索的方法

    公开(公告)号:CN114595350A

    公开(公告)日:2022-06-07

    申请号:CN202111489763.3

    申请日:2021-12-08

    Inventor: 程涛 刘春平 肖锋

    Abstract: 本发明涉及计算机软件技术领域,涉及信息搜索技术领域,具体涉及一种百亿级图像快速搜索的方法。包括:图像样本数据的处理,利用深度神经网络对百亿级图像样本数据进行图像特征提取,经PCA降维后,形成了图像的特征向量库;利用IVPQ算法构建至少两级PQ组,每一级PQ组至少包含3个PQ,保证特征向量的切分数量两两互质,从而形成特征向量索引库;基于该特征像索引库,可以在检索时获得最优候选集并对最优候选集进行相似度计算和排序,最后输出最终的排序TOPN。本发明比FAISS有更高的准确性,在单服务器运行中,Top10的召回率达61.8%,运行稳定性更好,支撑220真实并发,吞吐率高达10000次且平均响应时间在30ms,检索效率更高。

    一种互联网文档的总访问量的估值方法

    公开(公告)号:CN114357347A

    公开(公告)日:2022-04-15

    申请号:CN202111621632.6

    申请日:2021-12-28

    Abstract: 本发明涉及一种互联网文档的总访问量的估值方法。包括:基于网站、app、社交媒体的日平均访问量,分别构建网站、app以及社交媒体的计算模型;获取用户首发的原创互联网文档并进行初始化分析;根据计算模型分别预估访问量;对所述网站预估访问量、app预估访问量以及社交媒体访预估问量,这三个值进行求和获得当日全网总访问量,再根据发布时间t获得衰减比例,获得已发布t天数内的总访问量。本发明针对互联网中的网站、app、社交媒体为基础全面的进行估算;构建不同的模型及实现算法,同时通过校正系数、配比等分析,客观准确的在全网进行总访问量的估值,为更有效的评估网站影响力、统计效绩及通过客观性排名等需求提供更有力的数据支持。

Patent Agency Ranking