-
公开(公告)号:CN118503512A
公开(公告)日:2024-08-16
申请号:CN202410512695.5
申请日:2024-04-26
Applicant: 南京莱斯网信技术研究院有限公司 , 东南大学
IPC: G06F16/953 , G06F16/27 , G06F16/2458 , G06F16/2452 , G06F16/483 , G06F9/50
Abstract: 本发明提出了一种面向大规模网络舆情的Elasticsearch检索优化系统,包括:数据汇聚模块、优化机制和检索服务模块;其中:所述数据汇聚模块,用于对网络舆情多模态数据,经过预处理后得到的中间数据发送到分布式消息总线Kafka中,最终持久化保存到Elasticsearch分布式检索引擎中;所述优化机制,包括:基于深度学习模型SBert构建文本语义向量,用于实现语义检索;基于CLIP多模态对比学习模型将网络舆情多模态数据中的文本和图片转成文本向量和图片向量,用于向量检索;采用分片优化策略优化Elasticsearch分布式检索引擎的检索性能;所述检索服务模块,用于使用布尔组合查询器,基于优化机制中构建的文本语义向量、文本向量和图片向量,进行多模态检索。
-
公开(公告)号:CN114297462A
公开(公告)日:2022-04-08
申请号:CN202111515500.5
申请日:2021-12-13
Applicant: 中国电子科技集团公司第二十八研究所 , 南京莱斯网信技术研究院有限公司
IPC: G06F16/951 , G06F16/955 , G06F12/12 , G06F9/48
Abstract: 本发明提供了一种基于动态自适应的网站异步序列数据智能采集方法,本发明在已有爬虫集群、账号池和IP池基础上,针对常见的反爬技术,如ajax动态加载技术、动态cookie访问限制、系统安全防护、异常访问行为监测和异常账号监测等反爬技术,通过动态自适应的智能采集系统实现目标主流网站的实时数据采集,通过分布式网络爬虫安全回传实现目标网站数据连续获取和隐蔽传输,为进一步数据分析做好铺垫。
-
公开(公告)号:CN116055134A
公开(公告)日:2023-05-02
申请号:CN202211682251.3
申请日:2022-12-26
Applicant: 南京莱斯网信技术研究院有限公司
IPC: H04L9/40 , H04L67/1097 , G06F16/958
Abstract: 本发明提出了一种互联网信息的电子取证方法,包括:对电子取证的环境进行清洁;打开待取证互联网网页;提取待取证互联网网页的信息;获取取证可信时间戳,得到取证时间,将证据信息进行固证处理并进行证据指纹计算,得到证据指纹,生成电子证据包文件;将电子证据包文件存储至分布式文件存储系统,并取得证据包文件路径;将证据包文件路径、证据指纹以及取证时间等信息存储至区块链平台取得区块链信息,即区块高度和区块HASH信息;将区块链信息和电子证据相关的其他业务数据存储至业务数据库,完成互联网信息提取及固证,即完成互联网信息的电子取证。
-
公开(公告)号:CN110704542A
公开(公告)日:2020-01-17
申请号:CN201910978247.3
申请日:2019-10-15
Applicant: 南京莱斯网信技术研究院有限公司
Abstract: 本发明提供了一种基于节点负载的数据动态分区系统,包括负载监测采集、预测、数据预分区、数据迁移等模块;采用二次平滑法预测节点负载,结合了AHP和熵值指标权重法,能够根据不同的数据分析应用得到相应的分区策略,动态调整系统的负载均衡性,提高应用的响应速度。本发明针对Spark和Memsql分布式集成框架的应用场景,由于分布式环境存在节点资源的异构性,为了减少节点之间数据传输消耗,充分利用每个节点的计算资源,通过负载均衡性来提高应用分析的并行计算效率。为此,本发明提出一种基于节点负载的数据动态分区机制和策略来改善系统负载均衡性及提高应用的响应速度,辅助相关工作人员完成决策。
-
公开(公告)号:CN114297462B
公开(公告)日:2024-11-12
申请号:CN202111515500.5
申请日:2021-12-13
Applicant: 中国电子科技集团公司第二十八研究所 , 南京莱斯网信技术研究院有限公司
IPC: G06F16/951 , G06F16/955 , G06F12/12 , G06F9/48
Abstract: 本发明提供了一种基于动态自适应的网站异步序列数据智能采集方法,本发明在已有爬虫集群、账号池和IP池基础上,针对常见的反爬技术,如ajax动态加载技术、动态cookie访问限制、系统安全防护、异常访问行为监测和异常账号监测等反爬技术,通过动态自适应的智能采集系统实现目标主流网站的实时数据采集,通过分布式网络爬虫安全回传实现目标网站数据连续获取和隐蔽传输,为进一步数据分析做好铺垫。
-
公开(公告)号:CN119206822A
公开(公告)日:2024-12-27
申请号:CN202411254326.7
申请日:2024-09-09
Applicant: 南京莱斯网信技术研究院有限公司
IPC: G06V40/16 , G06V10/22 , G06V10/44 , G06V10/74 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本发明提出了一种低质量人脸图像识别方法,可以根据不同比例的遮挡和无遮挡人脸图像的特征对遮挡人脸图像进行有效识别,具体包括:提取无遮挡人脸图像特征,根据人脸的不同遮挡比例值和无遮挡人脸图像特征,训练不同的遮挡擦除网络,使得遮挡擦除网络和无遮挡人脸图像特征的乘积,与遮挡人脸图像的特征基本一致。对目标人脸识别时,如果是无遮挡人脸图像,则直接与原始人脸图像特征进行比对识别;如果是有遮挡人脸图像,则根据人脸遮挡比例,获取对应的遮挡擦除网络,计算遮挡擦除网络与无遮挡人脸图像特征的乘积值,与遮挡人脸特殊处理后提取的特征值进行比对识别,提高遮挡情况下人脸的识别准确率。
-
公开(公告)号:CN116842378A
公开(公告)日:2023-10-03
申请号:CN202310670809.4
申请日:2023-06-07
Applicant: 南京莱斯网信技术研究院有限公司 , 东南大学
IPC: G06F18/214 , G06F18/2132 , G06F18/10 , G06F18/25 , G06F16/25 , G06F16/28 , G06F40/216 , G06F18/22
Abstract: 本发明提供了基于舆情实时数据流的自适应LDA主题模型训练系统,包括数据汇聚模块、数据预处理模块、自适应LDA模型训练模块和增量式LDA模型融合模块;数据汇聚模块用于对结构化、半结构化数据进行抽取和转换加载,并输入到分布式的消息总线kafka中;数据预处理模块用于对消息总线kafka中的数据进行预处理,最后形成加权词向量;自适应LDA模型训练模块用于训练得到LDA模型结果,并将训练结果进行合并;增量式LDA模型融合模块用于进行融合训练生成新一轮LDA模型。本发明从准确率及性能上都优于传统LDA主题分析方法,并应用于网络舆情领域事件检测、推荐、词云及检索等实际工程项目中,创造了商业价值。
-
-
-
-
-
-