-
公开(公告)号:CN119862279A
公开(公告)日:2025-04-22
申请号:CN202411953534.6
申请日:2024-12-27
Applicant: 中科天玑数据科技股份有限公司
IPC: G06F16/35 , G06F40/284 , G06F18/22
Abstract: 本发明提供一种网络文本数据的热点获取方法和热点热度分析方法,包括依据热点规则过滤网络数据,提取与热点相关的若干数据元;数据元分词处理以获取特征词,依据特征词生成数据元向量;基于聚类策略确定数据元向量的内若干聚类中心,合并相似聚类中心以确定类中心,以类中心表示热点,所述所述数据元包括文本特征和非文本特征。本发明通过将数据元内多角度数据融合至一个数据元向量内,提高热点发现的准确性。
-
公开(公告)号:CN118799615A
公开(公告)日:2024-10-18
申请号:CN202410677112.4
申请日:2024-05-29
Applicant: 中科天玑数据科技股份有限公司
IPC: G06V10/764 , G06V30/19 , G06F40/279
Abstract: 本发明提供一种有害图像检测方法,包括提取图像内文字以生成文字信息,多模态大模型接收并识别图像,以生成描述图像展示场景的图文信息,并生成总文本信息,总文本信息输入生成式大语言模型,依据图像的文字描述内判断图像是否有害,并输出判断结果文本。本发明能够实现零样本训练,即可检测各种类型有字或无字有害图像,提高有害图像识别的智能化程度和可扩展性。
-
公开(公告)号:CN119885121A
公开(公告)日:2025-04-25
申请号:CN202411970452.2
申请日:2024-12-30
Applicant: 中科天玑数据科技股份有限公司
Abstract: 本发明提供一种网页水印的信息隐藏方法和解析方法,包括获取用户信息并将其转换成由数值0‑9构成的数字编码;获取长文字段,依据编码策略将数字编码隐藏至长文字段内,以生成包含用户信息的文字水印;所述编码策略包括获取定位标识,依据定位标识确定数值与变形样式之间的对应关系,数字编码前端填充定位标识,数字编码与定位标识内随机位置填充随机数量的空标识以形成长度与长文字段长度一致的水印串,依据水印串内字符与变形样式之间的对应关系调整文字形状,以生成文字水印。本发明能够在在明水印中有效隐藏用户信息,确保了信息隐藏的灵活性、高效性和准确性。
-
公开(公告)号:CN118797193A
公开(公告)日:2024-10-18
申请号:CN202410779240.X
申请日:2024-06-17
Applicant: 中科天玑数据科技股份有限公司
IPC: G06F16/955
Abstract: 本发明提供一种网页列表页链接识别方法,包括获取网页列表的html文档,通过xpath将html文档转换成Dom树;所述Dom树包括若干主体,从Dom树的根为起始遍历主体以筛选主体中包含预设标签的链接url,提取并构成链接组;两两组合链接组内链接url,依据链接url内包含字符串种类和数量将其转换成向量数组,使用余弦相似度定理计算两数组的相似度,依据相似度是否超过阈值判断两链接url是否相似,相似度高的链接url保留至链接组;依据关键词过滤链接url,输出符合规则的链接。本发明通过余弦相似度算法对链接识别进行优化,能够对不同网页列表页链接的高效、准确识别,提高了识别的准确率和适应性。
-
-
-