-
公开(公告)号:CN110209815A
公开(公告)日:2019-09-06
申请号:CN201910435240.7
申请日:2019-05-23
申请人: 国家计算机网络与信息安全管理中心 , 北京天润基业科技发展股份有限公司
摘要: 本发明公开一种卷积神经网络的新闻用户兴趣挖掘方法:步骤一:定义兴趣标签;步骤二:训练数据构造;步骤三、词向量的语料收集与词向量训练;步骤四、构造word到token和token到word的映射,得到映射表;步骤五、在映射表基础上,对原始文本进行转换;步骤六:加载预训练好的词向量文件,构造一个词典词汇数量vocab_size*词向量维度embedding_size大小的矩阵;步骤七:将带有兴趣标签的微博文本数据接入到分类模型训练。本发明实现了一种自动构造新闻用户兴趣标签的方法,通过构建一个结合连续的语义特征CNN卷积神经网络作为兴趣文本分类器,对用户的新闻评论进行兴趣分类,得到用户的兴趣。
-
公开(公告)号:CN108846017A
公开(公告)日:2018-11-20
申请号:CN201810426304.2
申请日:2018-05-07
申请人: 国家计算机网络与信息安全管理中心 , 北京天润基业科技发展股份有限公司
摘要: 本发明一种基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法,包括如下步骤:S1.进行Word Embedding的字级别语义特征表示;S2.构建注意力权重的Bi-GRU字级别的句子特征编码模型;S3.搭建基于注意力权重的Bi-GRU句子级别特征编码模型;S4.使用分层Softmax实现端到端分类实现。本发明方法可降低向量的维度,且有效地防止特征过于稀疏问题。优化了最终的输出向量,增强了模型特征编码有效性。避免维度过高造成的模型难以训练问题,又提供了额外的语义信息。可灵活组合特征抽取模型和各种常见分类器,方便更换调试分类器。计算复杂度比Softmax从|K|降低到log|K|。
-
公开(公告)号:CN113268649B
公开(公告)日:2023-12-19
申请号:CN202110240775.6
申请日:2021-03-04
申请人: 北京天润基业科技发展股份有限公司
IPC分类号: G06F16/953 , G06F16/33 , G06F16/35 , G06F40/279 , G06F40/30
摘要: 本发明实施例涉及信息处理技术领域,公开了一种基于多元化数据融合的线索监测方法及系统。该方法包括:从多种数据源中抽取多元化数据的账号实体信息,并对抽取到的各类账号实体信息进行基于云服务多语言翻译;对各类账号实体信息对应的内容文本进行分析得到线索并将包含线索的内容打上标签;对区块链网络中的交易数据进行解析并筛选得到非法交易信息;对各类账号实体信息、带有标签的线索以及非法交易信息进行关联分析得到网络空间线索;其中,网络空间线索包括多个交易项以及多个交易项之间的关联关系。本发明实施例实现从多元化信息载体中发现信息之间的相关性,从而完成线索发现、时间串联、人物关系串联、资金流向追踪等任务。
-
公开(公告)号:CN108804594A
公开(公告)日:2018-11-13
申请号:CN201810523561.8
申请日:2018-05-28
申请人: 国家计算机网络与信息安全管理中心 , 北京天润基业科技发展股份有限公司
IPC分类号: G06F17/30
摘要: 本发明涉及一种新闻内容全文检索引擎的构建方法及装置,该方法步骤如下:获取带有实时访问信息的实时网站日志;获取带有新闻热度评论信息的新闻网站的数据;对所述实时网站日志和所述新闻网站数据分类;对分类后的所述新闻网站数据进行处理、索引并存储;获取新闻网站数据中国的新闻元信息并存储;获取新闻网站数据中的热度信息进行存储,并对新闻网站数据中的热度信息统计。本发明在查询性能、索引空间和构建性能方面实现了合理的平衡;考虑到统计数据随时间变化的特性,动态更新索引结果;提高了系统的健壮性;提高统计数据与文本数据的复合查询性能。
-
公开(公告)号:CN113268649A
公开(公告)日:2021-08-17
申请号:CN202110240775.6
申请日:2021-03-04
申请人: 北京天润基业科技发展股份有限公司
IPC分类号: G06F16/953 , G06F16/33 , G06F16/35 , G06F40/279 , G06F40/30
摘要: 本发明实施例涉及信息处理技术领域,公开了一种基于多元化数据融合的线索监测方法及系统。该方法包括:从多种数据源中抽取多元化数据的账号实体信息,并对抽取到的各类账号实体信息进行基于云服务多语言翻译;对各类账号实体信息对应的内容文本进行分析得到线索并将包含线索的内容打上标签;对区块链网络中的交易数据进行解析并筛选得到非法交易信息;对各类账号实体信息、带有标签的线索以及非法交易信息进行关联分析得到网络空间线索;其中,网络空间线索包括多个交易项以及多个交易项之间的关联关系。本发明实施例实现从多元化信息载体中发现信息之间的相关性,从而完成线索发现、时间串联、人物关系串联、资金流向追踪等任务。
-
公开(公告)号:CN110222262A
公开(公告)日:2019-09-10
申请号:CN201910435231.8
申请日:2019-05-23
申请人: 国家计算机网络与信息安全管理中心 , 北京天润基业科技发展股份有限公司
IPC分类号: G06F16/9535 , G06K9/00 , G06K9/62 , G06N20/00
摘要: 本发明公开一种利用新闻评论行为的网络用户人格自动识别方法:步骤一、利用新闻语料资源,对每个新闻文本内容进行中文分词;筛选掉停用词后得到该语料库的所有不同的词条,作为新闻内容词典;步骤二、利用机器学习方法,建立新闻评论行为到人格的预测模型;步骤三、在得到预测模型之后,针对新的网络用户,获得该新的网络用户参与评论的所有新闻,采用获得归一化之后的自变量,利用训练得到的模型实现对网络用户人格的自动识别。本发明对人格的自动识别,无需用户自我报告,时效性高;对用户没有任何干扰,生态效度高;可以做到大规模用户人格的自动识别;人格识别效率提高;满足在新闻网站场景下对人员人格特征的监测要求。
-
-
-
-
-