-
公开(公告)号:CN110134944A
公开(公告)日:2019-08-16
申请号:CN201910275651.4
申请日:2019-04-08
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 本发明公开了一种基于强化学习的指代消解方法,包括:数据预处理:对文本数据进行分词、分句、词性标注、词形还原、命名实体识别、句法解析,词向量转换,得到候选先行词和指代词相关特征;构建神经网络模型:该模型结合词向量和相关特征能够学习指代对的特点和相关语义信息,更好的对候选先行词和指代词进行排序打分,最后得到指代链;使用训练好的模型进行指代消解,输入文本数据,输出消解链。本发明方法针对启发式损失函数的不足,采用奖励衡量的机制来进行深度学习训练,提高了模型效果,针对不同语言数据集自动进行超参设置,免除了手工设置的必要,提高了模型的实用性拓展了适用范围。
-
公开(公告)号:CN103678564A
公开(公告)日:2014-03-26
申请号:CN201310659651.7
申请日:2013-12-09
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 一种基于数据挖掘的互联网产品调研系统,由6个模块组成:信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块。系统通过自动采集互联网上各类关于产品的信息,经过预处理之后,采用数据挖掘和自然语言处理技术进行综合分析,从而快速形成关于产品的概貌分析、产品各不同功能的市场口碑分析、不同产品对比分析、用户群体分析等不同侧面的分析结果,为产品分析、市场决策提供快速、坚实的支撑。本发明充分利用互联网信息资源优势,能够根据用户需求对产品进行调研,不但可以节约调研所需的人力物力,还能够及时反映跟踪市场动态。
-
公开(公告)号:CN108920447A
公开(公告)日:2018-11-30
申请号:CN201810426812.0
申请日:2018-05-07
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F17/27
Abstract: 本发明一种面向特定领域的中文事件抽取方法,包括:预处理:对原始数据信息去除冗余标签、分句、分词;字典构建:人工对大规模新闻语料分析,对特定领域常见角色总结,构建角色字典;对报道特定领域事件的常见句型进行总结,构建基于触发词的句型字典;句法分析:对给定的中文新闻报道语句,进行句法解析得到句法解析树;句型匹配:根据句型字典在句法树上进行句型匹配;事件要素抽取:根据角色字典在句法树上进行角色抽取,根据时间和地点要素的句法特征在句法树上进行时间和地点抽取。本发明解决了大数据环境下快速获取中文新闻资讯信息的难题,通过自动化处理,用户根据自己输入关键词即可得到关键词相关的新闻事件,为信息获取提供极大便利。
-
公开(公告)号:CN103678565B
公开(公告)日:2017-02-15
申请号:CN201310659722.3
申请日:2013-12-09
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 一种基于自引导方式的领域自适应句子对齐系统,包括:网页处理模块,中文文本处理模块,英文文本处理模块和双语文处理模块。首先,针对不同的网页,对于料进行提取和相应做预处理;使用一种基于自引导的方式并融合多种特征的句子对齐算法对中英文进行句子级的对齐;同时,对可能能够反映相关领域信息和主题信息的互译词对进行提取。本发明提高了句子对齐质量,具有领域适应性强的优点。
-
公开(公告)号:CN103678564B
公开(公告)日:2017-02-15
申请号:CN201310659651.7
申请日:2013-12-09
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F17/30
Abstract: 一种基于数据挖掘的互联网产品调研系统,由6个模块组成:信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块。系统通过自动采集互联网上各类关于产品的信息,经过预处理之后,采用数据挖掘和自然语言处理技术进行综合分析,从而快速形成关于产品的概貌分析、产品各不同功能的市场口碑分析、不同产品对比分析、用户群体分析等不同侧面的分析结果,为产品分析、市场决策提供快速、坚实的支撑。本发明充分利用互联网信息资源优势,能够根据用户需求对产品进行调研,不但可以节约调研所需的人力物力,还能够及时反映跟踪市场动态。
-
公开(公告)号:CN108920447B
公开(公告)日:2022-08-05
申请号:CN201810426812.0
申请日:2018-05-07
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F40/205 , G06F40/284 , G06F40/289
Abstract: 本发明一种面向特定领域的中文事件抽取方法,包括:预处理:对原始数据信息去除冗余标签、分句、分词;字典构建:人工对大规模新闻语料分析,对特定领域常见角色总结,构建角色字典;对报道特定领域事件的常见句型进行总结,构建基于触发词的句型字典;句法分析:对给定的中文新闻报道语句,进行句法解析得到句法解析树;句型匹配:根据句型字典在句法树上进行句型匹配;事件要素抽取:根据角色字典在句法树上进行角色抽取,根据时间和地点要素的句法特征在句法树上进行时间和地点抽取。本发明解决了大数据环境下快速获取中文新闻资讯信息的难题,通过自动化处理,用户根据自己输入关键词即可得到关键词相关的新闻事件,为信息获取提供极大便利。
-
公开(公告)号:CN103678565A
公开(公告)日:2014-03-26
申请号:CN201310659722.3
申请日:2013-12-09
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
CPC classification number: G06F17/30666 , G06F17/30737
Abstract: 一种基于自引导方式的领域自适应句子对齐系统,包括:网页处理模块,中文文本处理模块,英文文本处理模块和双语文处理模块。首先,针对不同的网页,对于料进行提取和相应做预处理;使用一种基于自引导的方式并融合多种特征的句子对齐算法对中英文进行句子级的对齐;同时,对可能能够反映相关领域信息和主题信息的互译词对进行提取。本发明提高了句子对齐质量,具有领域适应性强的优点。
-
公开(公告)号:CN103294818B
公开(公告)日:2016-05-18
申请号:CN201310231487.X
申请日:2013-06-12
Applicant: 北京航空航天大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于多信息融合的微博热点话题检测方法,首先根据微博发布者的社交关系来计算博主的影响力,进而基于博主的影响力信息和特征词频率信息来计算特征词在给定时间段内所有微博中的权值之和;然后根据特征词权值之和随时间变化的信息来检测突发特征词,通过引入Web新闻语料来扩充微博数据以计算突发特征间的关联关系值,进而构建突发特征词关联图;最后对突发特征词关联图进行划分,每个强连通子图表示一个话题,从而实现微博热点话题的检测。本发明综合利用了微博特征词信息、博主社会关系信息、相关Web新闻文档信息来检测微博热点话题,提高了微博热点话题检测的效率。
-
公开(公告)号:CN101436966A
公开(公告)日:2009-05-20
申请号:CN200810240500.7
申请日:2008-12-23
Applicant: 北京航空航天大学
Abstract: 本发明公开了一种虚拟机环境下的网络监控与分析系统,包括位于主机操作系统内的网络数据多路复用模块和轻量级虚拟机管理器模块,位于主机操作系统之上的虚拟机控制模块和服务虚拟机模块,以及位于主机操作系统和服务虚拟机内的I/O访问路径优化模块。本发明基于虚拟机实现了单个物理机器上的网络数据多路复用给多个网络监控与分析服务程序,从而能够对同一份网络数据实时提供多种监控与分析功能,并且实现了服务程序之间的安全隔离,以及按需动态调整分配给服务程序的资源。克服了现有网络监控与分析体系中存在的资源竞争、安全性低、系统不稳定和不易扩展等问题。
-
公开(公告)号:CN115293244B
公开(公告)日:2023-08-15
申请号:CN202210835620.1
申请日:2022-07-15
Applicant: 北京航空航天大学
IPC: G06N3/0442 , G06F18/213 , G06F18/2131 , G06N3/048 , G06N3/08 , G06Q10/0635 , G06Q50/06
Abstract: 本发明公开了一种基于信号处理及数据约简的智能电网虚假数据注入攻击检测方法,可用在电力系统状态估计环节之后,首先使用离散小波变换技术(Discrete Wavelet Transform,DWT)提取状态量行为特征生成高维特征向量;其次,使用改进的极限学习机(ImprovedExtreme Learning Machine,IELM)对高维特征向量进行约简以缩短检测器训练时间,并避免“维度灾难”;最后,以新生成的低维特征向量训练长短期记忆网络(Long Short TermMemory,LSTM),生成智能电网虚假数据注入攻击检测器。过程中,新生成的低维特征向量存储在数据库中作为扩充数据集以持续优化检测器。本发明的目的在于提出一种实时准确的智能电网虚假数据注入攻击检测方法,确保电力系统安全稳定运行。
-
-
-
-
-
-
-
-
-