-
公开(公告)号:CN116842378A
公开(公告)日:2023-10-03
申请号:CN202310670809.4
申请日:2023-06-07
Applicant: 南京莱斯网信技术研究院有限公司 , 东南大学
IPC: G06F18/214 , G06F18/2132 , G06F18/10 , G06F18/25 , G06F16/25 , G06F16/28 , G06F40/216 , G06F18/22
Abstract: 本发明提供了基于舆情实时数据流的自适应LDA主题模型训练系统,包括数据汇聚模块、数据预处理模块、自适应LDA模型训练模块和增量式LDA模型融合模块;数据汇聚模块用于对结构化、半结构化数据进行抽取和转换加载,并输入到分布式的消息总线kafka中;数据预处理模块用于对消息总线kafka中的数据进行预处理,最后形成加权词向量;自适应LDA模型训练模块用于训练得到LDA模型结果,并将训练结果进行合并;增量式LDA模型融合模块用于进行融合训练生成新一轮LDA模型。本发明从准确率及性能上都优于传统LDA主题分析方法,并应用于网络舆情领域事件检测、推荐、词云及检索等实际工程项目中,创造了商业价值。
-
公开(公告)号:CN118503512A
公开(公告)日:2024-08-16
申请号:CN202410512695.5
申请日:2024-04-26
Applicant: 南京莱斯网信技术研究院有限公司 , 东南大学
IPC: G06F16/953 , G06F16/27 , G06F16/2458 , G06F16/2452 , G06F16/483 , G06F9/50
Abstract: 本发明提出了一种面向大规模网络舆情的Elasticsearch检索优化系统,包括:数据汇聚模块、优化机制和检索服务模块;其中:所述数据汇聚模块,用于对网络舆情多模态数据,经过预处理后得到的中间数据发送到分布式消息总线Kafka中,最终持久化保存到Elasticsearch分布式检索引擎中;所述优化机制,包括:基于深度学习模型SBert构建文本语义向量,用于实现语义检索;基于CLIP多模态对比学习模型将网络舆情多模态数据中的文本和图片转成文本向量和图片向量,用于向量检索;采用分片优化策略优化Elasticsearch分布式检索引擎的检索性能;所述检索服务模块,用于使用布尔组合查询器,基于优化机制中构建的文本语义向量、文本向量和图片向量,进行多模态检索。
-
公开(公告)号:CN114297462A
公开(公告)日:2022-04-08
申请号:CN202111515500.5
申请日:2021-12-13
Applicant: 中国电子科技集团公司第二十八研究所 , 南京莱斯网信技术研究院有限公司
IPC: G06F16/951 , G06F16/955 , G06F12/12 , G06F9/48
Abstract: 本发明提供了一种基于动态自适应的网站异步序列数据智能采集方法,本发明在已有爬虫集群、账号池和IP池基础上,针对常见的反爬技术,如ajax动态加载技术、动态cookie访问限制、系统安全防护、异常访问行为监测和异常账号监测等反爬技术,通过动态自适应的智能采集系统实现目标主流网站的实时数据采集,通过分布式网络爬虫安全回传实现目标网站数据连续获取和隐蔽传输,为进一步数据分析做好铺垫。
-
公开(公告)号:CN114330294B
公开(公告)日:2024-09-17
申请号:CN202111651242.3
申请日:2021-12-30
Applicant: 中国电子科技集团公司第二十八研究所 , 南京莱斯网信技术研究院有限公司
IPC: G06F40/211 , G06F40/216 , G06F40/237 , G06F40/289
Abstract: 本发明提供了一种基于文本句法分析的人物言论抽取方法,针对提供的人物信息和文本信息,抽取文本中出现的人物言论。包括构建触发词字典,即针对初始的言论触发词,以近义词技术,扩展触发词,构建完善的触发词字典;文本分句,即将整个文本按完整的句子进行切分;句子过滤,根据句子中是否命中提供的人物信息,是否命中触发词信息,进行候选句筛选;言论判定,即依据句法分析,判定人物和触发词之间的关系,判定该语句是否为人物言论。本发明的人物言论抽取方法能够简单,高效,准确地抽取文本中的人物言论信息。
-
公开(公告)号:CN114330294A
公开(公告)日:2022-04-12
申请号:CN202111651242.3
申请日:2021-12-30
Applicant: 中国电子科技集团公司第二十八研究所 , 南京莱斯网信技术研究院有限公司
IPC: G06F40/211 , G06F40/216 , G06F40/237 , G06F40/289
Abstract: 本发明提供了一种基于文本句法分析的人物言论抽取方法,针对提供的人物信息和文本信息,抽取文本中出现的人物言论。包括构建触发词字典,即针对初始的言论触发词,以近义词技术,扩展触发词,构建完善的触发词字典;文本分句,即将整个文本按完整的句子进行切分;句子过滤,根据句子中是否命中提供的人物信息,是否命中触发词信息,进行候选句筛选;言论判定,即依据句法分析,判定人物和触发词之间的关系,判定该语句是否为人物言论。本发明的人物言论抽取方法能够简单,高效,准确地抽取文本中的人物言论信息。
-
公开(公告)号:CN112749341A
公开(公告)日:2021-05-04
申请号:CN202110088158.9
申请日:2021-01-22
Applicant: 南京莱斯网信技术研究院有限公司
IPC: G06F16/9535 , G06F16/9536 , G06F16/22 , G06F40/30 , G06F40/44 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提供了重点舆情推荐方法、可读存储介质及数据处理装置,方法包括:处理海量互联网数据,获得热点主题和对应的关键词,拓展后生成热点领域短句库,使用文本语义相似模型分析文章的热点领域话题占比,完成热点领域推荐;筛选获得高热度评级的新闻数据和高热度值的微博数据,完成新闻和微博推荐;再根据个性化用户词典,训练文本语义相似模型分析文章的个性化内容占比,完成个性化定制推荐;结合以上所有推荐,实时推送热点文章。相较于现有技术,能够根据不同平台多样化计算热度,弥补了单一热点字段评判的不足,满足多样化平台的实时重点舆情推荐,提高了推荐内容的准确性,拓展了推荐内容的覆盖面,具有优异的实时性和稳定性。
-
公开(公告)号:CN111950273B
公开(公告)日:2023-09-01
申请号:CN202010757144.7
申请日:2020-07-31
Applicant: 南京莱斯网信技术研究院有限公司
IPC: G06F40/289 , G06F40/30 , G06F40/216 , G06F40/242 , G06F16/35 , G06F16/955 , G06F16/9536 , G06N3/0442 , G06N3/045 , G06N3/047 , G06N3/084
Abstract: 本发明提供了基于情感信息抽取分析的网络舆情突发事件自动识别方法,包括:根据社交媒体采集方法获取海量社交媒体数据以及进行数据过滤清洗等数据预处理;根据历史社交媒体数据训练情感模型,形成情感识别模型;根据情感识别模型,对社交媒体中突发情感进行检测与分析;提取突发情感对应社交媒体标签,通过分词处理识别突发情感对应标签的事件原始关键词,形成事件原始关键词库;提取社交媒体事件关键词,并与关键词库进行匹配,关键词完全匹配并情感状态为未负面时,获取对应事件基本信息,形成突发事件描述。本发明适用于多种社交媒体突发事件的识别,可拓展性高,复用性好,开发代价低,可根据业务需求多维度应用。
-
公开(公告)号:CN116055134A
公开(公告)日:2023-05-02
申请号:CN202211682251.3
申请日:2022-12-26
Applicant: 南京莱斯网信技术研究院有限公司
IPC: H04L9/40 , H04L67/1097 , G06F16/958
Abstract: 本发明提出了一种互联网信息的电子取证方法,包括:对电子取证的环境进行清洁;打开待取证互联网网页;提取待取证互联网网页的信息;获取取证可信时间戳,得到取证时间,将证据信息进行固证处理并进行证据指纹计算,得到证据指纹,生成电子证据包文件;将电子证据包文件存储至分布式文件存储系统,并取得证据包文件路径;将证据包文件路径、证据指纹以及取证时间等信息存储至区块链平台取得区块链信息,即区块高度和区块HASH信息;将区块链信息和电子证据相关的其他业务数据存储至业务数据库,完成互联网信息提取及固证,即完成互联网信息的电子取证。
-
公开(公告)号:CN111414520A
公开(公告)日:2020-07-14
申请号:CN202010194818.7
申请日:2020-03-19
Applicant: 南京莱斯网信技术研究院有限公司
IPC: G06F16/906 , G06F16/951 , G06F16/9536 , G06N7/00
Abstract: 本发明公开了一种舆情信息中敏感信息的智能挖掘系统,包括:舆情信息预处理模块,用于滤除舆情信息中的杂质信息,获得已过滤舆情信息;敏感信息类别标注模块,用于在信息展示界面接收并记录人工标注信息,获得已标注舆情信息;基于bert模型的敏感信息识别模块,用于根据已标注舆情信息训练敏感信息分类模型获得挖掘模型;舆情信息敏感智能挖掘模块,用于根据挖掘模型实时智能挖掘舆情信息并输出挖掘结果;敏感信息可视化模块,用于将舆情信息与挖掘结果以可视化的形式展示在信息展示界面。采用前述系统,能够结合舆情工作人员的需求,完成舆情信息敏感智能挖掘,方便舆情工作人员实时、便捷地了解和掌握舆情信息,辅助相关工作人员完成决策。
-
公开(公告)号:CN110704542A
公开(公告)日:2020-01-17
申请号:CN201910978247.3
申请日:2019-10-15
Applicant: 南京莱斯网信技术研究院有限公司
Abstract: 本发明提供了一种基于节点负载的数据动态分区系统,包括负载监测采集、预测、数据预分区、数据迁移等模块;采用二次平滑法预测节点负载,结合了AHP和熵值指标权重法,能够根据不同的数据分析应用得到相应的分区策略,动态调整系统的负载均衡性,提高应用的响应速度。本发明针对Spark和Memsql分布式集成框架的应用场景,由于分布式环境存在节点资源的异构性,为了减少节点之间数据传输消耗,充分利用每个节点的计算资源,通过负载均衡性来提高应用分析的并行计算效率。为此,本发明提出一种基于节点负载的数据动态分区机制和策略来改善系统负载均衡性及提高应用的响应速度,辅助相关工作人员完成决策。
-
-
-
-
-
-
-
-
-