一种文本数据的聚类方法、装置和系统

    公开(公告)号:CN107273412A

    公开(公告)日:2017-10-20

    申请号:CN201710307520.0

    申请日:2017-05-04

    Abstract: 本发明的实施例提供了一种文本数据的聚类方法、装置和系统。其中,所述方法包括:子节点接收主节点针对海量文本数据进行拆分得到的待聚类的文本子集合;所述子节点将所述文本子集合中的每个文本分别与所有子节点的文本子集合中的每个文本进行文本相似度的比对,得到文本对的相似关系集合;所述子节点将所述相似关系集合发送至所述主节点,以使得所述主节点根据所有子节点发送的所述相似关系集合对所述海量文本数据进行聚类,得到所述海量文本数据的聚类结果。本发明通过引入spark分布式框架,对海量文本数据进行分布式聚类,从而获得对海量文本数据进行聚类的能力。

    海量文档分布式检索排重系统和方法

    公开(公告)号:CN103577418A

    公开(公告)日:2014-02-12

    申请号:CN201210256159.0

    申请日:2012-07-24

    Abstract: 一种海量文档分布式检索排重系统,包括文档预处理模块、文档特征计算模块、分布式建库模块、存储模块、分布式检索模块、相似度计算模块。文档特征计算模块根据词对文档的重要程度计算文档特征向量。分布式建库模块根据文档特征向量将文档映射到不同的存储分区。分布式检索模块检索目标文档所属的若干个分区,相似度计算模块计算目标文档与这若干个分区中所有文档的相似度,从而实现海量文档分布式排重操作。所提供的海量文档分布式检索排重系统和方法,借助了分布式系统的思想,将海量文档集分散到若干个子集中,使得排重计算在1个或少数几个子集中进行,减少了相似度计算量,提高了文档排重效率。

    基于图神经网络的文档处理方法、装置和存储介质

    公开(公告)号:CN112214993A

    公开(公告)日:2021-01-12

    申请号:CN202010916293.3

    申请日:2020-09-03

    Abstract: 本发明属于文档处理和检索技术领域,为了解决现有基于传统的关键词检索技术,无法挖掘词语、句子、文档之间的语义关系,检索效果差的技术问题;本发明一种基于图神经网络的文档处理方法、装置、电子装置和非易失性计算机存储介质,所述方法采用基于有监督学习的图神经网络技术将语义词图生成深度语义向量,应用二值化编码器技术,将语义向量转化为二进制编码形式,进而生成字符特征向量,并构建倒排索引;使得处理后的文档,在检索过程中,能够基于字符特征索引和检索技术进行高性能检索与语义匹配,有效地提升语义检索结果相关性。

    图像处理方法、装置、电子设备和存储介质

    公开(公告)号:CN109753581A

    公开(公告)日:2019-05-14

    申请号:CN201811452179.9

    申请日:2018-11-30

    Abstract: 本公开实施例提供一种图像处理方法、装置、电子设备和存储介质。图像处理方法包括:提取图像的具有第一维度的第一特征数据;对所述第一特征数据进行特征降维,获得具有第二维度的第二特征数据,所述第二维度的值小于第一维度的值;根据与所述第二维度的各个特征数据预设的阈值,对所述第二特征数据的各个维度的特征值进行二进制编码,生成表征图像基因的二进制串码;将所述二进制串码中各个对应单位位数的值映射为字符,获得表征图像基因的编码字符串。这种图像特征基因编码方法快速、简单,能够使用相对少的计算资源进行计算,具有极佳的领域适用性。

    视频关键位置定位方法及装置

    公开(公告)号:CN107222746A

    公开(公告)日:2017-09-29

    申请号:CN201710271432.X

    申请日:2017-04-24

    Abstract: 本发明的实施例提供了一种视频关键位置定位方法及装置。所述视频关键位置定位方法包括:获取视频帧序列中各相邻视频帧之间的帧差;获取视频帧序列中设定范围内的帧差的第一帧差极大值;如果第一帧差极大值位于设定范围内的第一区域范围内,则将第一帧差极大值的位置确定为视频帧序列的当前关键位置,其中,设定范围包括第一区域范围和第二区域范围,第一区域范围的长度大于第二区域范围的长度。采用本发明实施例的技术方案,可以有效地实现视频关键位置的定位,并且避免误差传递,具有较高的鲁棒性。

    一种数据处理方法和系统
    18.
    发明公开

    公开(公告)号:CN107193883A

    公开(公告)日:2017-09-22

    申请号:CN201710285832.6

    申请日:2017-04-27

    Abstract: 本发明实施例提供了一种数据处理方法和系统,其中,所述方法包括:获取待处理的第一数据;根据自然语言处理引擎抽取所述第一数据的关键词序列;根据协同过滤引擎确定所述关键词序列的推荐数据;查询预设的数据库,得到与所述推荐数据匹配的第二数据。本发明实施例利用协同过滤引擎和第一数据的关键词序列确定第一数据的相似数据,即推荐数据,采用协同过滤技术确定第一数据的相似数据,提高了确定相似数据的准确率。当第一数据作为问题数据,第二数据作为答案数据时,本发明实施例也提高了答案推荐的准确率。

Patent Agency Ranking