-
公开(公告)号:CN114297462A
公开(公告)日:2022-04-08
申请号:CN202111515500.5
申请日:2021-12-13
Applicant: 中国电子科技集团公司第二十八研究所 , 南京莱斯网信技术研究院有限公司
IPC: G06F16/951 , G06F16/955 , G06F12/12 , G06F9/48
Abstract: 本发明提供了一种基于动态自适应的网站异步序列数据智能采集方法,本发明在已有爬虫集群、账号池和IP池基础上,针对常见的反爬技术,如ajax动态加载技术、动态cookie访问限制、系统安全防护、异常访问行为监测和异常账号监测等反爬技术,通过动态自适应的智能采集系统实现目标主流网站的实时数据采集,通过分布式网络爬虫安全回传实现目标网站数据连续获取和隐蔽传输,为进一步数据分析做好铺垫。
-
公开(公告)号:CN111950273B
公开(公告)日:2023-09-01
申请号:CN202010757144.7
申请日:2020-07-31
Applicant: 南京莱斯网信技术研究院有限公司
IPC: G06F40/289 , G06F40/30 , G06F40/216 , G06F40/242 , G06F16/35 , G06F16/955 , G06F16/9536 , G06N3/0442 , G06N3/045 , G06N3/047 , G06N3/084
Abstract: 本发明提供了基于情感信息抽取分析的网络舆情突发事件自动识别方法,包括:根据社交媒体采集方法获取海量社交媒体数据以及进行数据过滤清洗等数据预处理;根据历史社交媒体数据训练情感模型,形成情感识别模型;根据情感识别模型,对社交媒体中突发情感进行检测与分析;提取突发情感对应社交媒体标签,通过分词处理识别突发情感对应标签的事件原始关键词,形成事件原始关键词库;提取社交媒体事件关键词,并与关键词库进行匹配,关键词完全匹配并情感状态为未负面时,获取对应事件基本信息,形成突发事件描述。本发明适用于多种社交媒体突发事件的识别,可拓展性高,复用性好,开发代价低,可根据业务需求多维度应用。
-
公开(公告)号:CN114297462B
公开(公告)日:2024-11-12
申请号:CN202111515500.5
申请日:2021-12-13
Applicant: 中国电子科技集团公司第二十八研究所 , 南京莱斯网信技术研究院有限公司
IPC: G06F16/951 , G06F16/955 , G06F12/12 , G06F9/48
Abstract: 本发明提供了一种基于动态自适应的网站异步序列数据智能采集方法,本发明在已有爬虫集群、账号池和IP池基础上,针对常见的反爬技术,如ajax动态加载技术、动态cookie访问限制、系统安全防护、异常访问行为监测和异常账号监测等反爬技术,通过动态自适应的智能采集系统实现目标主流网站的实时数据采集,通过分布式网络爬虫安全回传实现目标网站数据连续获取和隐蔽传输,为进一步数据分析做好铺垫。
-
公开(公告)号:CN112749341B
公开(公告)日:2024-03-29
申请号:CN202110088158.9
申请日:2021-01-22
Applicant: 南京莱斯网信技术研究院有限公司
IPC: G06F16/9535 , G06F16/9536 , G06F16/22 , G06F40/30 , G06F40/44 , G06F18/22 , G06F18/214 , G06N3/0455 , G06N3/08
Abstract: 本发明提供了重点舆情推荐方法、可读存储介质及数据处理装置,方法包括:处理海量互联网数据,获得热点主题和对应的关键词,拓展后生成热点领域短句库,使用文本语义相似模型分析文章的热点领域话题占比,完成热点领域推荐;筛选获得高热度评级的新闻数据和高热度值的微博数据,完成新闻和微博推荐;再根据个性化用户词典,训练文本语义相似模型分析文章的个性化内容占比,完成个性化定制推荐;结合以上所有推荐,实时推送热点文章。相较于现有技术,能够根据不同平台多样化计算热度,弥补了单一热点字段评判的不足,满足多样化平台的实时重点舆情推荐,提高了推荐内容的准确性,拓展了推荐内容的覆盖面,具有优异的实时性和稳定性。
-
公开(公告)号:CN111950273A
公开(公告)日:2020-11-17
申请号:CN202010757144.7
申请日:2020-07-31
Applicant: 南京莱斯网信技术研究院有限公司
IPC: G06F40/289 , G06F40/30 , G06F40/216 , G06F40/242 , G06F16/35 , G06F16/955 , G06F16/9536 , G06N3/04 , G06N3/08
Abstract: 本发明提供了基于情感信息抽取分析的网络舆情突发事件自动识别方法,包括:根据社交媒体采集方法获取海量社交媒体数据以及进行数据过滤清洗等数据预处理;根据历史社交媒体数据训练情感模型,形成情感识别模型;根据情感识别模型,对社交媒体中突发情感进行检测与分析;提取突发情感对应社交媒体标签,通过分词处理识别突发情感对应标签的事件原始关键词,形成事件原始关键词库;提取社交媒体事件关键词,并与关键词库进行匹配,关键词完全匹配并情感状态为未负面时,获取对应事件基本信息,形成突发事件描述。本发明适用于多种社交媒体突发事件的识别,可拓展性高,复用性好,开发代价低,可根据业务需求多维度应用。
-
公开(公告)号:CN114330294B
公开(公告)日:2024-09-17
申请号:CN202111651242.3
申请日:2021-12-30
Applicant: 中国电子科技集团公司第二十八研究所 , 南京莱斯网信技术研究院有限公司
IPC: G06F40/211 , G06F40/216 , G06F40/237 , G06F40/289
Abstract: 本发明提供了一种基于文本句法分析的人物言论抽取方法,针对提供的人物信息和文本信息,抽取文本中出现的人物言论。包括构建触发词字典,即针对初始的言论触发词,以近义词技术,扩展触发词,构建完善的触发词字典;文本分句,即将整个文本按完整的句子进行切分;句子过滤,根据句子中是否命中提供的人物信息,是否命中触发词信息,进行候选句筛选;言论判定,即依据句法分析,判定人物和触发词之间的关系,判定该语句是否为人物言论。本发明的人物言论抽取方法能够简单,高效,准确地抽取文本中的人物言论信息。
-
公开(公告)号:CN113793227B
公开(公告)日:2023-10-31
申请号:CN202111086853.8
申请日:2021-09-16
Applicant: 中国电子科技集团公司第二十八研究所 , 南京莱斯网信技术研究院有限公司
IPC: G06Q50/00 , G06Q10/04 , G06N3/0442 , G06N3/042 , G06N3/0464 , G06N3/0455 , G06N3/088 , G06N3/084
Abstract: 本发明提供了一种用于社交网络事件的类人智能感知与预测方法,包括:步骤1,根据事件异步序列数据采集方法获取事件异步序列训练集,并进行预处理;步骤2,构建双向LSTM训练模型一体化架构,对时间序列、事件序列进行训练;步骤3,构建异步序列的事件类人感知与预测模型,实现事件态势类人智能感知与预测;步骤4,结合面向事件与结构的协同流化的点过程在线更新算法,对异步序列的事件类人感知与预测模型进行迭代更新,动态调整预测模型。本发明适用于多种社交媒体突发事件的识别,可拓展性高,复用性好,开发代价低,可根据业务需求多维度应用。
-
公开(公告)号:CN114330294A
公开(公告)日:2022-04-12
申请号:CN202111651242.3
申请日:2021-12-30
Applicant: 中国电子科技集团公司第二十八研究所 , 南京莱斯网信技术研究院有限公司
IPC: G06F40/211 , G06F40/216 , G06F40/237 , G06F40/289
Abstract: 本发明提供了一种基于文本句法分析的人物言论抽取方法,针对提供的人物信息和文本信息,抽取文本中出现的人物言论。包括构建触发词字典,即针对初始的言论触发词,以近义词技术,扩展触发词,构建完善的触发词字典;文本分句,即将整个文本按完整的句子进行切分;句子过滤,根据句子中是否命中提供的人物信息,是否命中触发词信息,进行候选句筛选;言论判定,即依据句法分析,判定人物和触发词之间的关系,判定该语句是否为人物言论。本发明的人物言论抽取方法能够简单,高效,准确地抽取文本中的人物言论信息。
-
公开(公告)号:CN113793227A
公开(公告)日:2021-12-14
申请号:CN202111086853.8
申请日:2021-09-16
Applicant: 中国电子科技集团公司第二十八研究所 , 南京莱斯网信技术研究院有限公司
Abstract: 本发明提供了一种用于社交网络事件的类人智能感知与预测方法,包括:步骤1,根据事件异步序列数据采集方法获取事件异步序列训练集,并进行预处理;步骤2,构建双向LSTM训练模型一体化架构,对时间序列、事件序列进行训练;步骤3,构建异步序列的事件类人感知与预测模型,实现事件态势类人智能感知与预测;步骤4,结合面向事件与结构的协同流化的点过程在线更新算法,对异步序列的事件类人感知与预测模型进行迭代更新,动态调整预测模型。本发明适用于多种社交媒体突发事件的识别,可拓展性高,复用性好,开发代价低,可根据业务需求多维度应用。
-
公开(公告)号:CN112749341A
公开(公告)日:2021-05-04
申请号:CN202110088158.9
申请日:2021-01-22
Applicant: 南京莱斯网信技术研究院有限公司
IPC: G06F16/9535 , G06F16/9536 , G06F16/22 , G06F40/30 , G06F40/44 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提供了重点舆情推荐方法、可读存储介质及数据处理装置,方法包括:处理海量互联网数据,获得热点主题和对应的关键词,拓展后生成热点领域短句库,使用文本语义相似模型分析文章的热点领域话题占比,完成热点领域推荐;筛选获得高热度评级的新闻数据和高热度值的微博数据,完成新闻和微博推荐;再根据个性化用户词典,训练文本语义相似模型分析文章的个性化内容占比,完成个性化定制推荐;结合以上所有推荐,实时推送热点文章。相较于现有技术,能够根据不同平台多样化计算热度,弥补了单一热点字段评判的不足,满足多样化平台的实时重点舆情推荐,提高了推荐内容的准确性,拓展了推荐内容的覆盖面,具有优异的实时性和稳定性。
-
-
-
-
-
-
-
-
-