-
公开(公告)号:CN106294332B
公开(公告)日:2020-02-14
申请号:CN201510236598.9
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9536 , G06F40/30 , G06Q50/00
Abstract: 本发明提供一种微博话题特征提取方法及装置,用以解决目前采用静态词典中的词语特征来表示微博文本,会遗漏大量的关键特征,不能准确反映实时微博信息的问题。该方法包括:提取微博中的有意义字符串,有意义字符串为包含具有语义、能够独立使用的语言单元;提取有意义字符串的异质属性信息;根据异质属性信息对有意义字符串进行分类,得到微博话题相关的特征项,采用该方案能提高微博信息中的特征项提取的准确性。
-
公开(公告)号:CN106294405A
公开(公告)日:2017-01-04
申请号:CN201510264354.1
申请日:2015-05-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
CPC classification number: G06F16/9535 , G06F16/35
Abstract: 本发明公开一种微博子话题演化分析方法及装置,能够准确快速地识别微博子话题,并分析出微博子话题的演化关系。所述方法包括:通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类,以根据聚类结果生成相应的子话题;根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系。
-
公开(公告)号:CN106294336A
公开(公告)日:2017-01-04
申请号:CN201510236795.0
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开一种用于微博的突发特征检测方法及装置,涉及网络信息挖掘技术领域,用以解决现有技术中微博信息噪音大、数据多样突发特征检测准确率低的问题。所述方法包括:根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征;将所述候选突发特征中的频繁伪突发特征和间歇性伪突发特征滤除。
-
公开(公告)号:CN114003803B
公开(公告)日:2024-08-13
申请号:CN202110944831.4
申请日:2021-08-17
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9535 , G06F16/9536 , G06F16/9537 , G06Q50/00
Abstract: 本发明提出一种社交平台上特定地域的媒体账号发现方法及系统。在解决社交平台上特定地区媒体账号发现任务时,发明人发现已有方法难以快速地获取高质量的种子媒体账号信息,因此设计了一套针对种子媒体账号快速标注的方法,包括候选账号的确定与账号分类。发明人发现已有方法的特征设计存在特征较弱、无法体现媒体账号特性、难以大规模实施等问题,因此设计了针对媒体账号特性的特征抽取方法。该方法速度快、抽取的特征强。发明人发现已有方法难以高效、高质量地从种子账号扩充到更多的媒体账号。因此在解决了种子账号标注与特征抽取方法的基础上,设计了两种互为补充的扩充方法以获取高质量、高数量的媒体账号。
-
公开(公告)号:CN114003803A
公开(公告)日:2022-02-01
申请号:CN202110944831.4
申请日:2021-08-17
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9535 , G06F16/9536 , G06F16/9537 , G06Q50/00
Abstract: 本发明提出一种社交平台上特定地域的媒体账号发现方法及系统。在解决社交平台上特定地区媒体账号发现任务时,发明人发现已有方法难以快速地获取高质量的种子媒体账号信息,因此设计了一套针对种子媒体账号快速标注的方法,包括候选账号的确定与账号分类。发明人发现已有方法的特征设计存在特征较弱、无法体现媒体账号特性、难以大规模实施等问题,因此设计了针对媒体账号特性的特征抽取方法。该方法速度快、抽取的特征强。发明人发现已有方法难以高效、高质量地从种子账号扩充到更多的媒体账号。因此在解决了种子账号标注与特征抽取方法的基础上,设计了两种互为补充的扩充方法以获取高质量、高数量的媒体账号。
-
公开(公告)号:CN106294336B
公开(公告)日:2020-02-14
申请号:CN201510236795.0
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9535
Abstract: 本发明公开一种用于微博的突发特征检测方法及装置,涉及网络信息挖掘技术领域,用以解决现有技术中微博信息噪音大、数据多样突发特征检测准确率低的问题。所述方法包括:根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征;将所述候选突发特征中的频繁伪突发特征和间歇性伪突发特征滤除。
-
公开(公告)号:CN106294335B
公开(公告)日:2020-01-14
申请号:CN201510236792.7
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9536
Abstract: 本发明要解决的技术问题是提供一种用于微博的热点话题检测方法及装置,涉及网络信息挖掘技术领域,能够解决特征高度稀疏的微博文本热点话题检测困难的问题。所述方法包括:提取信息流中的有意义串并对所述有意义串进行热度分析,以从中筛选出热点特征;根据信息瓶颈理论对所述热点特征进行特征合并,并且计算合并后的合并程度指示参数;根据所述合并程度指示参数确定热点话题。
-
公开(公告)号:CN106294335A
公开(公告)日:2017-01-04
申请号:CN201510236792.7
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明要解决的技术问题是提供一种用于微博的热点话题检测方法及装置,涉及网络信息挖掘技术领域,能够解决特征高度稀疏的微博文本热点话题检测困难的问题。所述方法包括:提取信息流中的有意义串并对所述有意义串进行热度分析,以从中筛选出热点特征;根据信息瓶颈理论对所述热点特征进行特征合并,并且计算合并后的合并程度指示参数;根据所述合并程度指示参数确定热点话题。
-
公开(公告)号:CN106294333A
公开(公告)日:2017-01-04
申请号:CN201510236634.1
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提供一种微博突发话题检测方法及装置,用以解决目前微博突发话题难以识别的问题,该方法包括,提取指定的微博数据集合中的特征项,特征项为包含具体语义的语言单元;确定特征项在微博数据集合的文本中的流通度以及特征项当前的热度;以流通度为质量参数项,以热度为位置参数项对特征项进行动力学建模,得到特征项的当前能量和加速度;在得到的能量以及加速度分别大于第一预设值以及第二预设值时,检测突发特征项;根据检测到的突发特征项在同一条微博中同时出现的情况计算突发特征项之间的互信息;当互信息大于第三阈值时,对突发特征项进行合并,得到突发话题,该方案能够提高微博突发话题检测的准确率。
-
公开(公告)号:CN106294332A
公开(公告)日:2017-01-04
申请号:CN201510236598.9
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明提供一种微博话题特征提取方法及装置,用以解决目前采用静态词典中的词语特征来表示微博文本,会遗漏大量的关键特征,不能准确反映实时微博信息的问题。该方法包括:提取微博中的有意义字符串,有意义字符串为包含具有语义、能够独立使用的语言单元;提取有意义字符串的异质属性信息;根据异质属性信息对有意义字符串进行分类,得到微博话题相关的特征项,采用该方案能提高微博信息中的特征项提取的准确性。
-
-
-
-
-
-
-
-
-