-
公开(公告)号:CN118708795A
公开(公告)日:2024-09-27
申请号:CN202410729579.9
申请日:2024-06-06
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/953 , G06F16/906
Abstract: 本发明公开了基于社交应用采集资源管理和检测使用的系统,包括:采集资源调度装置,其用于存储、初始化和分配采集资源;数据采集调度装置,其用于采集资源的申请与使用;采集资源状态收集装置,其用于存储使用完成的采集资源状态,并对采集资源进行分类;异常采集资源处理装置,其用于对异常采集资源进行删除、刷新和验证操作,并将刷新和验证后的采集资源更新到采集资源调度装置中;采集资源检测装置,其用于对采集资源调度装置中的采集资源进行可用性检测,并将不可用资源更新到采集资源状态收集装置中;以及,基于社交应用采集资源管理和检测使用的方法。本发明具有能确保采集资源可以得到最大化的利用,保障数据采集长期有效的完成等优点。
-
公开(公告)号:CN118568257A
公开(公告)日:2024-08-30
申请号:CN202410583477.0
申请日:2024-05-11
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本公开涉及一种文本分类方法、装置、设备及存储介质。利用微调好的语言表示模型,对待分类文本中的语句进行处理,得到待分类文本的单词向量表示;从待分类文本的单词向量表示中获取具有语义关联关系的单词向量表示对,构建待分类文本的待处理图结构;利用预先训练的图卷积网络,对待分类文本的待处理图结构进行处理,得到待分类文本的向量表示矩阵;对待分类文本的向量表示矩阵进行分类处理,得到待分类文本的目标类别。这样,联合应用微调好的语言表示模型的表示学习能力和预先训练的图卷积网络的传导学习能力,能够提高文本分类的泛化能力,同时,结合微调好的语言表示模型对语境和语义的分析能力,提高了文本分类的精度。
-
公开(公告)号:CN117556043A
公开(公告)日:2024-02-13
申请号:CN202311490975.2
申请日:2023-11-09
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/30 , G06F40/253 , G06F40/216 , G06N3/0455
Abstract: 本公开涉及一种热点话题提取方法、装置、电子设备及存储介质。其中,热点话题提取方法包括:获取目标文本;获取目标文本对应的多个主题以及每个主题对应的词语概率分布向量;基于词语概率分布向量计算多个主题中各个主题之间的主题相似度,并计算每个主题对应的主题一致性;基于主题相似度和主题一致性,对多个主题进行合并处理,得到至少一个主题簇;计算至少一个主题簇中每个主题簇分别对应的主题流行度和主题新颖度,基于主题流行度和主题新颖度确定目标文本对应的热点话题,由此,能够在进行热点话题提取时考虑到文本中各个词语之间的语义和语法关联性,提高了提取的热点话题的准确性。
-
公开(公告)号:CN117131190A
公开(公告)日:2023-11-28
申请号:CN202310856800.2
申请日:2023-07-13
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/9535 , G06Q50/00 , G06N3/047 , G06F40/289
Abstract: 本发明涉及文本分类的技术领域,特别是涉及一种基于序贯神经网络模型的社交媒体用户文本分类方法,通过用户分类关键词、训练集数据和序贯模板模型构建社交媒体用户分类序贯神经网络模型,对采集的用户社交媒体发文文本进行相关特征提取,根据社交媒体中文用户分类序贯神经网络模型返回的权重值对用户进行分类;包括以下步骤:首先搜寻典型用户的post文本,收集相关关键词和停用词分别创建关键词词库和停用词词库,通过关键词词库和停用词词库结合典型用户文本构建神经网络训练矩阵,根据训练集和序贯模型创建神经网络模型,然后对采集到的中文用户post文本进行处理,最后通过序贯神经网络模型判定出用户的类型。
-
公开(公告)号:CN110990711B
公开(公告)日:2023-05-12
申请号:CN201910392858.X
申请日:2019-05-13
Applicant: 国家计算机网络与信息安全管理中心 , 北京蓝光汇智网络科技有限公司
IPC: G06F16/9536 , G06F16/958 , G06Q50/00 , G06N20/00
Abstract: 本发明公开了基于机器学习的微信公众号推荐算法,包括:为训练文本标注标签,获取训练文本的关键词及关键词向量,对关键词向量进行聚类计算,获得簇,并确定簇的中心向量;采集公众号文本,获取公众号文本的关键词及关键词向量,根据关键词向量与中心向量的相似度确定公众号文本对应的标签,获得标签分析结果;根据目标用户的历史行为确定目标用户的喜好标签;从标签分析结果中选取与喜好标签相关的标签,将相关的标签对应的公众号文本推荐给目标用户。本发明还提供了基于机器学习的微信公众号推荐系统。本发明能够根据分析用户喜好,进而自动推荐合适的公众号,避免用户受各种良莠不齐的公众号干扰,避免花费过多时间用于挑选公众号文章。
-
公开(公告)号:CN115357631A
公开(公告)日:2022-11-18
申请号:CN202210668005.6
申请日:2022-06-14
Applicant: 国家计算机网络与信息安全管理中心 , 北京蓝光汇智网络科技有限公司
IPC: G06F16/2457 , G06F40/295
Abstract: 本发明公开了一种社交账号区域位置信息的识别方法,其包括:采集社交账号的基本信息,所述基本信息至少包括:所在区域、个人简介;提取所在区域字段的内容,根据所在区域字段的内容得出位置信息,若无法得出位置信息,则采集社交账号的言论信息,提取言论信息发表时的定位经纬度,根据定位经纬度的地得出位置信息,若无法得出位置信息,则提取个人简介字段的内容,基于预设的位置匹配词在个人简介字段的内容中得出位置信息,若无法得出位置信息,则采集社交账号发表的文本信息,基于预设的位置匹配词在文本信息中得出位置信息。本发明可以通过账号注册时提供的位置信息、个人简介、经纬度、文本信息这四个维度进行区域位置分析。
-
公开(公告)号:CN115357610A
公开(公告)日:2022-11-18
申请号:CN202210669237.3
申请日:2022-06-14
Applicant: 国家计算机网络与信息安全管理中心 , 北京蓝光汇智网络科技有限公司
IPC: G06F16/2455 , G06F9/48
Abstract: 本发明公开了采集资源调度方法,包括:接受采集任务系统的访问请求,根据所述访问请求查询缓存中的采集资源,所述访问请求包括请求的采集资源类型;若缓存中无所需采集资源,则在数据库中查询并获取采集资源,并将获取到的采集资源放入缓存,供所述采集任务系统使用。本发明还提供了采集资源调度系统。本发明能够较稳定地为采集任务系统提供有效的采集资源。
-
公开(公告)号:CN111597333B
公开(公告)日:2022-08-02
申请号:CN202010343965.6
申请日:2020-04-27
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/9535 , G06F40/30 , G06F40/289 , G06Q50/26
Abstract: 本发明公开一种面向区块链领域的事件与事件要素抽取方法及装置,该方法包括:步骤一、基于区块链关键词图的web文本聚类,得到区块链文本聚合词图;步骤二、基于所述的区块链文本聚合词图,构建图注意力机制的图表示学习的事件及其要素抽取方法;首先以区块链文本聚合词图作为输入,基于图注意力模型GAT的深度学习模型进行词的表示学习,以事件及其要素进行抽取的模型训练直到模型收敛;基于收敛的模型实现Tensorflow的后台接口,而对于新的待抽取的文本通过该后台接口进行预测,返回输出的抽取值。本发明可以准确提取事件及其事件要素。
-
公开(公告)号:CN113254632B
公开(公告)日:2022-07-22
申请号:CN202110437683.7
申请日:2021-04-22
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 本发明公开了基于事件检测技术的时间线摘要自动生成方法,包括:S10、将新闻文本集合进行聚类,得到新闻事件的子事件文档集合,每个子事件文档集合对应一个子事件;S20、获取每个子事件文档集合的摘要;S30、对所述子事件进行筛选,自动确定时间线摘要长度L′,以及对应的L′个子事件;S40、获取所述L′个子事件对应的子事件文档集合的摘要,按照日期先后顺序对所述摘要进行排序,输出带有时间戳的摘要序列。以及,基于事件检测技术的时间线摘要自动生成装置,电子设备和存储介质。本发明具有能自动确定时间线摘要的长度,灵活性强,能够处理动态变化的新闻事件等优点。
-
公开(公告)号:CN114417211A
公开(公告)日:2022-04-29
申请号:CN202111319929.7
申请日:2021-11-09
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F16/958 , G06F16/9536 , G06Q50/00
Abstract: 本发明公开了一种面向社交平台的数据采集方法,包括:1)在主机上通过模拟用户发出的浏览器访问请求获取社交平台上相关页面的Web页面数据;2)将真机或模拟器连接主机,模拟用户发出的APP访问请求,在主机上设置网络代理,拦截APP访问请求获得相应的HTTP/HTTPS请求,获取社交平台上相关页面的APP页面数据;3)将Web页面数据和APP页面数据分别进行页面解析、数据对齐融合,输出并存入数据库。本发明公开了面向社交平台的数据采集系统,包括:Web数据采集模块、APP数据采集模块和双终端数据对齐融合模块。本发明的方法与系统同时适用于Web端和APP端的社交平台数据采集,能够获得全量的社交平台数据。
-
-
-
-
-
-
-
-
-