-
公开(公告)号:CN110674328A
公开(公告)日:2020-01-10
申请号:CN201910925718.4
申请日:2019-09-27
Applicant: 长城计算机软件与系统有限公司
Abstract: 本发明涉及一种商标图像检索方法、系统、介质及设备,该方法包括:按照每个商标分类号的所有类似群号对包含商标图像的特征向量的特征库进行分库;按照确定的聚类中心的数量对每个所述分库中的商标图像的特征向量进行聚类,在每个所述分库中为属于同一个聚类簇的特征向量划分一个子库;根据待查询商标的分类号和商标图像确定所述待查询商标所属子库;计算所述待查询商标的商标图像的特征向量与所属子库中商标图像的特征向量之间的距离;输出距离最小的前N个商标图像的特征向量对应的商标作为检索结果。本发明可大幅减少线上检索时的搜索范围,尤其当向量维度较高时,可以显著提高检索效率。
-
公开(公告)号:CN115827871A
公开(公告)日:2023-03-21
申请号:CN202211690035.3
申请日:2022-12-27
Applicant: 国家计算机网络与信息安全管理中心 , 长城计算机软件与系统有限公司
IPC: G06F16/35 , G06N3/08 , G06F18/241 , G06N3/0464
Abstract: 本发明提供了一种互联网企业分类的方法和装置,其中该方法包括:S1:获取互联网企业的多维度数据,并对所述多维度数据预处理以生成长文本数据;S2:将所述长文本数据输入基于Transformer编码器的Bert网络模型进行处理;S3:将经过处理后的数据送入分类器来对所述互联网企业进行分类。本发明的方案基于在Transformer架构的深度神经网络中进行自动特征组合学习,能够对互联网企业准确进行行业分类,并能够极大提升互联网企业行业分类的准确率。本发明的方案能够快速将海量企业多维度信息进行识别,无需人工干预。本发明的方案基于大语料预训练模型加下游任务微调的方案能灵活应用在不同场景中海量企业的快速分类。
-
公开(公告)号:CN116092102A
公开(公告)日:2023-05-09
申请号:CN202211714858.5
申请日:2022-12-27
Applicant: 国家计算机网络与信息安全管理中心 , 长城计算机软件与系统有限公司
IPC: G06V30/412 , G06V30/413 , G06V30/18 , G06V30/162 , G06V30/148 , G06V30/19 , G06V10/44 , G06V10/26 , G06V10/28 , G06V10/48 , G06V10/764 , G06V10/82 , G06N3/044 , G06N3/08
Abstract: 本发明公开了一种包含文本信息的结构图的处理方法,所述方法包括:基于包含文本信息的结构图的线段组成进行轮廓检测;根据检测出的轮廓拟合出几何多边形;基于所述结构图中文本框的特征条件,从所述几何多边形中过滤掉不符合所述特征条件的形状,得到边框。本发明能够从包含有文本信息的结构图中高效、准确地提取出边框。
-
公开(公告)号:CN112363981A
公开(公告)日:2021-02-12
申请号:CN202011271901.6
申请日:2020-11-13
Applicant: 长城计算机软件与系统有限公司
IPC: G06F16/14 , G06F16/33 , G06F40/117 , G06F40/163
Abstract: 本发明公开了一种用于LDIF文件的自动纠错方法及系统,涉及计算机技术领域。该方法包括:获取LDIF源文件,对所述LDIF源文件进行行读取;对行内容进行分析,如果不是文件流结尾,则对所述行内容进行关键字检测,根据关键字进行纠错;纠错完成后,将更新的内容写入所述LDIF源文件。本发明适用于LDIF文件的自动纠错,实现了LDIF文件的基本格式的校验和自动改错,程序员只需要纠正和业务相关部分的错误即可,可以降低相关人员对LDIF文件的格式规范要求,并且经过本方法处理之后可以更好的融入到LDAP的系统框架中进行读取。
-
公开(公告)号:CN111026922A
公开(公告)日:2020-04-17
申请号:CN201911369320.3
申请日:2019-12-26
Applicant: 长城计算机软件与系统有限公司
IPC: G06F16/901 , G06F16/903 , G06F16/51 , G06F16/58
Abstract: 本发明涉及一种分布式向量索引方法、系统、插件及电子设备,利用在预设配置中预存的LSH算法对各原始向量进行处理得到Hash值,将入库Hash值以Term形式存入ElasticSearch中的向量字段中,并将相应的各原始向量也存入向量字段,完成入库;当用户输入待检索字段值时,利用设定配置中的LSH算法将待检索字段值进行处理后生成待检索Hash值,然后通过BooleanQuery检索出待检索Hash值的相关Term,进而得到相关Term的原始向量,再根据相似度计算方法按照顺序返回结果,可按照预设配置将文字、图片等转为入库Hash值以及Term存入向量字段后完成入库,在用户进行检索文字、图片等时,也会将其转为待检索Hash值,根据待检索Hash值可精确的从向量字段中完成精确检索,实现混合检索。
-
-
-
-