-
公开(公告)号:CN103678565B
公开(公告)日:2017-02-15
申请号:CN201310659722.3
申请日:2013-12-09
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 一种基于自引导方式的领域自适应句子对齐系统,包括:网页处理模块,中文文本处理模块,英文文本处理模块和双语文处理模块。首先,针对不同的网页,对于料进行提取和相应做预处理;使用一种基于自引导的方式并融合多种特征的句子对齐算法对中英文进行句子级的对齐;同时,对可能能够反映相关领域信息和主题信息的互译词对进行提取。本发明提高了句子对齐质量,具有领域适应性强的优点。
-
公开(公告)号:CN103678564B
公开(公告)日:2017-02-15
申请号:CN201310659651.7
申请日:2013-12-09
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F17/30
Abstract: 一种基于数据挖掘的互联网产品调研系统,由6个模块组成:信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块。系统通过自动采集互联网上各类关于产品的信息,经过预处理之后,采用数据挖掘和自然语言处理技术进行综合分析,从而快速形成关于产品的概貌分析、产品各不同功能的市场口碑分析、不同产品对比分析、用户群体分析等不同侧面的分析结果,为产品分析、市场决策提供快速、坚实的支撑。本发明充分利用互联网信息资源优势,能够根据用户需求对产品进行调研,不但可以节约调研所需的人力物力,还能够及时反映跟踪市场动态。
-
公开(公告)号:CN105912644A
公开(公告)日:2016-08-31
申请号:CN201610217911.9
申请日:2016-04-08
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
CPC classification number: G06F16/345 , G06F17/2775
Abstract: 本发明公开了一种网络评论产生式摘要方法。首先,基于标点符号对评论进行短语分割、分词并标记每个词语的词性,进而基于评论对象参数字典和句法模板过滤掉与评论对象无关的短语;然后,计算短语情感极性强度值,根据评论对象参数的所有短语的情感极性强度值对评论对象参数的重要性进行排序,选取最重要的一部分参数进行摘要生成;最后,针对选取的每个参数,选取一个对该参数最重要的一个评论短语,把选取的所有短语置入到设计好的摘要模板中以生成评论摘要。本发明综合利用了情感分析、词性分析等技术提取有效的用户评论信息,并根据设计好的模板生成摘要,对提高摘要的可读性和准确性有很大帮助。
-
公开(公告)号:CN106557552B
公开(公告)日:2020-08-21
申请号:CN201610958001.6
申请日:2016-10-27
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F16/9535 , G06F16/335 , G06F16/35 , G06Q50/00
Abstract: 本发明公开了一种网络话题热度预测方法。它包括话题检测、热度预测建模、预测热度值计算三个步骤。话题检测部分负责从网络数据中获取与用户给定话题关键词相关的话题数据。预测建模部分按照用户设定的时间粒度大小统计话题检测结果中每个时间段内的话题热度值,并计算高斯过程模型关于话题热度统计时间点的协方差矩阵,构建基于高斯过程的预测模型。预测热度值计算部分针对用户给定的预测时间点,利用构建的高斯过程模型计算话题在给定时间点的热度值。本发明综合利用信息检索技术、分类技术进行话题检测,利用高斯过程模型来进行话题热度预测,提高了话题预测的实用性和有效性。
-
公开(公告)号:CN103678564A
公开(公告)日:2014-03-26
申请号:CN201310659651.7
申请日:2013-12-09
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 一种基于数据挖掘的互联网产品调研系统,由6个模块组成:信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块。系统通过自动采集互联网上各类关于产品的信息,经过预处理之后,采用数据挖掘和自然语言处理技术进行综合分析,从而快速形成关于产品的概貌分析、产品各不同功能的市场口碑分析、不同产品对比分析、用户群体分析等不同侧面的分析结果,为产品分析、市场决策提供快速、坚实的支撑。本发明充分利用互联网信息资源优势,能够根据用户需求对产品进行调研,不但可以节约调研所需的人力物力,还能够及时反映跟踪市场动态。
-
公开(公告)号:CN106557552A
公开(公告)日:2017-04-05
申请号:CN201610958001.6
申请日:2016-10-27
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 本发明公开了一种网络话题热度预测方法。它包括话题检测、热度预测建模、预测热度值计算三个步骤。话题检测部分负责从网络数据中获取与用户给定话题关键词相关的话题数据。预测建模部分按照用户设定的时间粒度大小统计话题检测结果中每个时间段内的话题热度值,并计算高斯过程模型关于话题热度统计时间点的协方差矩阵,构建基于高斯过程的预测模型。预测热度值计算部分针对用户给定的预测时间点,利用构建的高斯过程模型计算话题在给定时间点的热度值。本发明综合利用信息检索技术、分类技术进行话题检测,利用高斯过程模型来进行话题热度预测,提高了话题预测的实用性和有效性。
-
公开(公告)号:CN103678565A
公开(公告)日:2014-03-26
申请号:CN201310659722.3
申请日:2013-12-09
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
CPC classification number: G06F17/30666 , G06F17/30737
Abstract: 一种基于自引导方式的领域自适应句子对齐系统,包括:网页处理模块,中文文本处理模块,英文文本处理模块和双语文处理模块。首先,针对不同的网页,对于料进行提取和相应做预处理;使用一种基于自引导的方式并融合多种特征的句子对齐算法对中英文进行句子级的对齐;同时,对可能能够反映相关领域信息和主题信息的互译词对进行提取。本发明提高了句子对齐质量,具有领域适应性强的优点。
-
公开(公告)号:CN104778210B
公开(公告)日:2018-04-27
申请号:CN201510111754.9
申请日:2015-03-13
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种微博转发树和转发森林构建方法,属于数据挖掘领域,包括以下步骤:收集该条微博的原创微博信息;并且根据单条原创微博信息,获取其转发微博信息;然后在单条原创微博信息及其所有转发微博信息上,构造单条微博的微博树结构;根据用户给定时间段t3‑t4内的话题关键词Topic,收集与该话题相关的全量微博信息,针对每一条微博信息,构造单条微博的微博树结构;最后汇总该话题相关的全量微博信息的转发树;形成微博转发森林。本发明的优点为:通过转发树生成算法,高效快速完整地进行转发树和转发森林的提取,具有较高的效率和效果。
-
公开(公告)号:CN105068988B
公开(公告)日:2018-01-30
申请号:CN201510431992.8
申请日:2015-07-21
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F17/27
Abstract: 本发明涉及一种多维度和多粒度情感分析方法,包括:构建情感资源,即根据特定领域文本的类别体系构建其情感资源;选择情感倾向词,即选择每个类别下的情感词并确定其情感倾向;判别情感倾向性,包括:判断信息资源的类型;从信息资源中获取情感关键词;从信息资源中识别权威发布者,并获取该信息资源的情感分析结果;对社交类信息进行情感分析;对非专有类别社交类信息的情感倾向进行分析;针对专有类别的社交信息进行情感分析。本发明的情感分析方法能够从多维度、多粒度进行情感分析以提供较高的情感分析识别率和精度。
-
公开(公告)号:CN105095070B
公开(公告)日:2017-12-19
申请号:CN201510363954.3
申请日:2015-06-26
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F11/36
Abstract: 本发明公开了一种基于浏览器测试组件的QQ群数据获取方法与系统,通过给予浏览器测试组件,实现用户行为模拟,由此方式实现Web端QQ等登陆操作,结合并行化设计,面向QQ群实现即时聊天信息和非即时信息的数据获取。本发明能够避免人工登陆操作,在快速获取数据的同时,兼顾了获取数据的完整性,同时在后期维护上成本投入更小,能够根据版本变化快速修改并投入使用。
-
-
-
-
-
-
-
-
-