-
公开(公告)号:CN105095070B
公开(公告)日:2017-12-19
申请号:CN201510363954.3
申请日:2015-06-26
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F11/36
Abstract: 本发明公开了一种基于浏览器测试组件的QQ群数据获取方法与系统,通过给予浏览器测试组件,实现用户行为模拟,由此方式实现Web端QQ等登陆操作,结合并行化设计,面向QQ群实现即时聊天信息和非即时信息的数据获取。本发明能够避免人工登陆操作,在快速获取数据的同时,兼顾了获取数据的完整性,同时在后期维护上成本投入更小,能够根据版本变化快速修改并投入使用。
-
公开(公告)号:CN105068988A
公开(公告)日:2015-11-18
申请号:CN201510431992.8
申请日:2015-07-21
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F17/27
Abstract: 本发明涉及一种多维度和多粒度情感分析方法,包括:构建情感资源,即根据特定领域文本的类别体系构建其情感资源;选择情感倾向词,即选择每个类别下的情感词并确定其情感倾向;判别情感倾向性,包括:判断信息资源的类型;从信息资源中获取情感关键词;从信息资源中识别权威发布者,并获取该信息资源的情感分析结果;对社交类信息进行情感分析;对非专有类别社交类信息的情感倾向进行分析;针对专有类别的社交信息进行情感分析。本发明的情感分析方法能够从多维度、多粒度进行情感分析以提供较高的情感分析识别率和精度。
-
公开(公告)号:CN115309899A
公开(公告)日:2022-11-08
申请号:CN202210949186.X
申请日:2022-08-09
Applicant: 烟台中科网络技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06K9/62 , G06F40/284
Abstract: 本发明公开了一种文本中特定内容识别存储方法及系统,属于文特定词识别的技术领域,其方法包括生成特定词库和规则库;获取待识别的文本集合;提取当前特定文本数据集中的新特定词,得到新特定词集合;将需要训练的词组输入BERT模型;从特定文本中获取疑似新特定词集合,利用BERT模型计算特定词库中各词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度,并基于计算结果判定新特定词。本发明解决了现有技术中基于预构建模式规则的匹配方式仅局限于特定匹配规则模式,匹配方式不够灵活,结果不够全面,难以及时识别海量新出现的特定词及其变体词,且由于文本中涉及大量错综复杂的词语,容易造成特定词的模糊匹配,导致误识别的问题。
-
公开(公告)号:CN113536077B
公开(公告)日:2022-06-17
申请号:CN202110606596.X
申请日:2021-05-31
Applicant: 烟台中科网络技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/906 , G06F16/953 , G06F16/901 , G06N20/00
Abstract: 本发明公开了一种移动APP特定事件内容检测方法,涉及网络信息安全和自然语言处理交叉技术领域。首先获取互联网上特定事件的若干内容作为原始语料,从中抽取原始关键词;针对原始语料构建关键词关系图,并对关键词关系图进行聚类,得到若干簇;对同一簇中的关键词进行量化和排序,得到最能够表达该事件的特征关键词;将特征关键词输入到APP搜索框中进行自动化检索,保存结果;使用机器学习算法对保存结果进行分析,实现了移动APP中特定事件的自动、高效检测分析。本发明以很低的搜索成本获得了不同移动应用针对特定事件的舆论观点和舆论走向信息。本发明还公开了一种移动APP特定事件内容检测装置。
-
公开(公告)号:CN108763333B
公开(公告)日:2022-05-17
申请号:CN201810445536.2
申请日:2018-05-11
Applicant: 北京航空航天大学 , 国家计算机网络与信息安全管理中心
IPC: G06F16/36 , G06F40/295
Abstract: 本发明则提出一种基于社会媒体的事件图谱构建方法,首先进行多源数据预处理,接着对预处理后的数据进行多源事件信息抽取,然后通过事件关系评价对事件间关系进行判定,最后进行实体信息融合,对异构图中的实体进行属性补全。本发明将事件看做抽象实体,基于社会媒体文本数据对抽取事件基本构成要素,事件进行关联,并融合已有结构化知识库构建事件图谱,这样能够提供更全面更直接的面向事件的信息检索服务,还能通过将传统非结构化文本内容的研究转化为基于图的研究,有利于发掘更深层次的信息。
-
公开(公告)号:CN108647214B
公开(公告)日:2020-06-30
申请号:CN201810270468.0
申请日:2018-03-29
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/58 , G06F40/289 , G06N3/04
Abstract: 本发明涉及语言处理领域,提出了一种基于深层神经网络翻译模型的解码方法,旨在解决机器翻译模型中模型训练复杂度高、训练难度大解码速度慢等问题。该方法的具体实施方式包括:对待翻译语句进行分词处理,得到源语言词汇;步骤2,使用自动对齐工具对预设的翻译模型词汇表中的语料进行词对齐,得到与所述源语言词汇对齐的目标语言单词;步骤3,基于步骤2所得到的目标语言单词,确定出所述待翻译语句的目标端动态词汇表,根据预先构建的翻译模型,使用柱搜索方法解码出的语句作为所述翻译模型的输出;其中,所述翻译模型为基于门限残差机制和平行注意力机制的深层神经网络。本发明提升了模型翻译质量,提高了模型解码速度。
-
公开(公告)号:CN106294332B
公开(公告)日:2020-02-14
申请号:CN201510236598.9
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9536 , G06F40/30 , G06Q50/00
Abstract: 本发明提供一种微博话题特征提取方法及装置,用以解决目前采用静态词典中的词语特征来表示微博文本,会遗漏大量的关键特征,不能准确反映实时微博信息的问题。该方法包括:提取微博中的有意义字符串,有意义字符串为包含具有语义、能够独立使用的语言单元;提取有意义字符串的异质属性信息;根据异质属性信息对有意义字符串进行分类,得到微博话题相关的特征项,采用该方案能提高微博信息中的特征项提取的准确性。
-
公开(公告)号:CN106156150B
公开(公告)日:2019-06-25
申请号:CN201510175964.4
申请日:2015-04-14
Applicant: 北大方正集团有限公司 , 北京大学 , 国家计算机网络与信息安全管理中心 , 北京北大方正电子有限公司
IPC: G06F16/9535 , G06F16/332
Abstract: 本发明公开了一种微博用户关联信息筛选方法及装置,用以解决现有技术中存在的数据稀疏的问题,以及推荐效果不理想,降低系统推荐效率的问题,该方法包括:首先确定当前用户的关联用户集合、特征向量、以及社区结构和主题;根据该每一个关联用户对应的特征向量中的每一个特征项和每一个社区结构对应的主题,得到用户主题分布;根据用户主题分布,筛选出当前用户的目标关联用户,这样,可以避免了推荐结果数据稀疏的问题,提高了系统的推荐效率,并得到与当前用户的兴趣爱好一致的关联用户。
-
公开(公告)号:CN108595708A
公开(公告)日:2018-09-28
申请号:CN201810443976.4
申请日:2018-05-10
Applicant: 北京航空航天大学 , 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提出一种基于知识图谱的异常信息文本分类方法,首先构建领域知识图谱,构建出基于所述领域知识图谱的实体识别和实体链接,然后构建文本特征表示向量vtext和实体特征表示向量vent,最后将文本特征表示向量与实体特征表示向量拼接得到融入了知识特征的新的文本表示向量vmerge,对所述新的文本表示向量进行分类训练,得到最终的分类结果。
-
公开(公告)号:CN105162676B
公开(公告)日:2017-08-11
申请号:CN201510363826.9
申请日:2015-06-26
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种微信数据获取方法和系统,通过安卓平台应用测试组件和浏览器测试组件相结合来实现。基于安卓平台测试组件方式,可以模拟用户行为操作客户端,包括登陆、查看、滑屏等;由此方式获取的微信公众平台账号历史消息的网页地址结合主动采集技术,可获取微信公众账号完整的历史消息。采用安卓平台测试组件和浏览器测试组件相结合方式,通过监听浏览器DOM元素变化,能够自动化实现网页版微信登陆,全面和及时有效地获取微信数据。
-
-
-
-
-
-
-
-
-