-
公开(公告)号:CN105068988B
公开(公告)日:2018-01-30
申请号:CN201510431992.8
申请日:2015-07-21
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F17/27
Abstract: 本发明涉及一种多维度和多粒度情感分析方法,包括:构建情感资源,即根据特定领域文本的类别体系构建其情感资源;选择情感倾向词,即选择每个类别下的情感词并确定其情感倾向;判别情感倾向性,包括:判断信息资源的类型;从信息资源中获取情感关键词;从信息资源中识别权威发布者,并获取该信息资源的情感分析结果;对社交类信息进行情感分析;对非专有类别社交类信息的情感倾向进行分析;针对专有类别的社交信息进行情感分析。本发明的情感分析方法能够从多维度、多粒度进行情感分析以提供较高的情感分析识别率和精度。
-
公开(公告)号:CN105893481A
公开(公告)日:2016-08-24
申请号:CN201610187149.4
申请日:2016-03-29
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提供一种基于马尔可夫聚类的实体间关系消解方法,包括:计算K个实体中任意两个实体之间的语义相似度;根据实体间的语义相似度构造赋权图G;构造状态转移矩阵M;在状态转移矩阵M上执行马尔科夫聚类算法,得到多个关系簇;其中,每个簇代表一系列语义相近似的实体。本发明提供的基于马尔可夫聚类的实体间关系消解方法具有以下优点:提出了融合词法和语义的相似度计算方法,然后给出了基于马尔科夫图聚类的关系聚类方法。该方法与层次聚类方法相比,聚类纯度指标有了一定提高,还具有计算过程简单快速的优点。
-
公开(公告)号:CN105760366A
公开(公告)日:2016-07-13
申请号:CN201610150038.6
申请日:2016-03-16
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/27
CPC classification number: G06F17/2715 , G06F17/277
Abstract: 本发明提供一种针对特定领域的新词发现方法,包括以下步骤:步骤1,文档预处理;步骤2,构建候选新词集;其中,每个候选新词由词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达。步骤3,候选新词挖掘;优点为:针对特定领域的新词发现方法,采用更灵活的新词表达方式,将数据挖掘领域的关联规则方法引入新词发现过程,并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征,由此可快速准确全面的识别出文档包含的所有新词。
-
公开(公告)号:CN105068988A
公开(公告)日:2015-11-18
申请号:CN201510431992.8
申请日:2015-07-21
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F17/27
Abstract: 本发明涉及一种多维度和多粒度情感分析方法,包括:构建情感资源,即根据特定领域文本的类别体系构建其情感资源;选择情感倾向词,即选择每个类别下的情感词并确定其情感倾向;判别情感倾向性,包括:判断信息资源的类型;从信息资源中获取情感关键词;从信息资源中识别权威发布者,并获取该信息资源的情感分析结果;对社交类信息进行情感分析;对非专有类别社交类信息的情感倾向进行分析;针对专有类别的社交信息进行情感分析。本发明的情感分析方法能够从多维度、多粒度进行情感分析以提供较高的情感分析识别率和精度。
-
公开(公告)号:CN106980692B
公开(公告)日:2020-12-08
申请号:CN201710213302.0
申请日:2017-04-01
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/9536 , G06Q50/00
Abstract: 本发明涉及一种基于微博特定事件的影响力计算方法,属于社交网络分析及数据挖掘技术领域。本发明依据传播学中事件发展的五个阶段对特定事件进行了相关分析划分并应用于影响力计算中,主要针对微博文本数据及基础的用户数据进行统计处理与自然语言处理,计算传播角度和内容角度兼顾的六项影响力指标,并使用K‑means机器学习算法对子话题进行划分;最终得出特定事件的影响力热度指数EII、事件内的用户影响力排行榜、消息影响力排行榜。对比现有技术,本发明考虑微博文本的内容指标,较全面而准确地反映了事件各方面的信息,具有很强的现实意义和实用价值。此外,本发明方法计算的时空耗费不高,易于模块化,可投入大规模的数据计算,具有较好的稳定性。
-
公开(公告)号:CN106126605B
公开(公告)日:2019-12-10
申请号:CN201610453205.4
申请日:2016-06-21
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35
Abstract: 本发明公开了一种基于用户画像的短文本分类方法。本方法为:1)基于用户发出的短文本数据生成对应用户的用户画像;其中,用户ui的用户画像为用户ui属于类别ci的值;2)采用分类器对该用户ui的短文本TS进行分类,得到该短文本TS所属类别的可能性F={f1,...,fi,...,fm};3)根据用户ui的用户画像与F={f1,...,fi,...,fm}计算该短文本TS属于各类别的值,选出最大的类别结果作为该短文本TS的类别标签。本发明大大增加了分类的准确率。
-
公开(公告)号:CN105893481B
公开(公告)日:2019-01-29
申请号:CN201610187149.4
申请日:2016-03-29
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明提供一种基于马尔可夫聚类的实体间关系消解方法,包括:计算K个实体中任意两个实体之间的语义相似度;根据实体间的语义相似度构造赋权图G;构造状态转移矩阵M;在状态转移矩阵M上执行马尔科夫聚类算法,得到多个关系簇;其中,每个簇代表一系列语义相近似的实体。本发明提供的基于马尔可夫聚类的实体间关系消解方法具有以下优点:提出了融合词法和语义的相似度计算方法,然后给出了基于马尔科夫图聚类的关系聚类方法。该方法与层次聚类方法相比,聚类纯度指标有了一定提高,还具有计算过程简单快速的优点。
-
公开(公告)号:CN103678565B
公开(公告)日:2017-02-15
申请号:CN201310659722.3
申请日:2013-12-09
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 一种基于自引导方式的领域自适应句子对齐系统,包括:网页处理模块,中文文本处理模块,英文文本处理模块和双语文处理模块。首先,针对不同的网页,对于料进行提取和相应做预处理;使用一种基于自引导的方式并融合多种特征的句子对齐算法对中英文进行句子级的对齐;同时,对可能能够反映相关领域信息和主题信息的互译词对进行提取。本发明提高了句子对齐质量,具有领域适应性强的优点。
-
公开(公告)号:CN103678564B
公开(公告)日:2017-02-15
申请号:CN201310659651.7
申请日:2013-12-09
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F17/30
Abstract: 一种基于数据挖掘的互联网产品调研系统,由6个模块组成:信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块。系统通过自动采集互联网上各类关于产品的信息,经过预处理之后,采用数据挖掘和自然语言处理技术进行综合分析,从而快速形成关于产品的概貌分析、产品各不同功能的市场口碑分析、不同产品对比分析、用户群体分析等不同侧面的分析结果,为产品分析、市场决策提供快速、坚实的支撑。本发明充分利用互联网信息资源优势,能够根据用户需求对产品进行调研,不但可以节约调研所需的人力物力,还能够及时反映跟踪市场动态。
-
公开(公告)号:CN106126606A
公开(公告)日:2016-11-16
申请号:CN201610453319.9
申请日:2016-06-21
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种短文本新词发现方法。本方法为:1)从当前短文本中提取一字符串s,计算该字符串s的对称条件概率SCP(s)以及该字符串s的左邻熵HL(s)和右邻熵HL(s);2)取左邻熵HL(s)和右邻熵HL(s)的较小值,记为BE(s);3)计算该字符串s的成词概率Prword(s),根据Prword(s)的值确定词s是否为新词。本发明大大提高了新词发现的准确率。
-
-
-
-
-
-
-
-
-