-
公开(公告)号:CN114386384B
公开(公告)日:2024-03-19
申请号:CN202111482009.7
申请日:2021-12-06
Applicant: 鹏城实验室
IPC: G06F40/194 , G06F16/2458
Abstract: 本发明公开了一种大规模长文本数据的近似重复检测方法、系统及终端,通过将传统数据库中的倒排索引结构引入到分布式计算框架中,实现了文档相似检测的分布式分区,并且通过倒排表分区方式实现Simhash技术的分布式计算,为其带来可扩展性,最后通过在计算过程中嵌入传统数据库领域的前缀剪枝技术,来进一步减少分布式重复检测过程中倒排分区的通讯读写代价和simhash计算的验证代价。
-
公开(公告)号:CN115409180A
公开(公告)日:2022-11-29
申请号:CN202210921276.8
申请日:2022-08-02
Applicant: 鹏城实验室
Abstract: 本发明公开了一种分布式图推理计算方法、装置、终端及存储介质,方法包括:对图数据进行预处理,得到图数据所构造的全图,并更新全图上的基础信息;对全图中所有点的hop值进行初始化处理,分别获取预设点、一度邻居以及二度邻居所对应的特征,得到二度子图特征;将所获取的二度子图特征输入至已训练的GNN编码器模型中,并输出得到对应的嵌入向量;根据输出的嵌入向量生成对应边的邮件信息,并通过邮件传递机制将邮件信息发送至对应边的目的点;通过已训练的GNN解码器模型对全图特征进行解码,根据各边目的点上的邮件信息输出全图特征的逻辑推理结果。本发明解决了现有的图神经网络模型无法适应实时性要求高的场景的技术问题。
-
公开(公告)号:CN114386384A
公开(公告)日:2022-04-22
申请号:CN202111482009.7
申请日:2021-12-06
Applicant: 鹏城实验室
IPC: G06F40/194 , G06F16/2458
Abstract: 本发明公开了一种大规模长文本数据的近似重复检测方法、系统及终端,通过将传统数据库中的倒排索引结构引入到分布式计算框架中,实现了文档相似检测的分布式分区,并且通过倒排表分区方式实现Simhash技术的分布式计算,为其带来可扩展性,最后通过在计算过程中嵌入传统数据库领域的前缀剪枝技术,来进一步减少分布式重复检测过程中倒排分区的通讯读写代价和simhash计算的验证代价。
-
-