基于网络离散文本的舆情信息分析方法

    公开(公告)号:CN102110140A

    公开(公告)日:2011-06-29

    申请号:CN201110030156.0

    申请日:2011-01-26

    Abstract: 一种网络信息安全领域的基于网络离散文本的舆情信息分析系统,包括以下模块:离散文本信息采集模块,按设定的分析周期对网络信息进行采集;离散文本信息追踪与复原模块,对原内容省略之处和远程指代之处进行复原,得到包含较为完整的篇章结构和语义信息的文本;语义信息挖掘与特征提取模块,利用潜在语义索引技术实现对文本信息的语义挖掘和特征提取;舆情信息聚类模块,通过将小生境遗传算法和K-Means方法相结合实现对信息的聚类;热点舆情事件发现模块,对聚类得到的话题和事件进行热点舆情挖掘;后台信息处理和数据支持中心,分析数据并提供网络专用用语库、网络新词、已有类别信息和已有热点话题等。本发明解决现有网络舆情信息篇章结构不完整、内容省略和远程指代多、网络新词多等对信息分析的影响,并用高效聚类方法提高舆情热点事件发现的准确性。

Patent Agency Ranking