-
公开(公告)号:CN102855276A
公开(公告)日:2013-01-02
申请号:CN201210252582.3
申请日:2012-07-20
Applicant: 北京大学
Abstract: 本发明公布了一种判定评论文本极性的方法,所述方法可以应用于网络舆情监控。将评论文本用汉语分词工具进行分词和词性标注;根据词性标注结果,选出形容词集合;对形容词集合中的单词分别进行形容词极性判定;比较正极性单词的个数与负极性单词的个数:如果正极性单词的个数大于负极性单词的个数,则判定该评论文本为正面评价;如果正极性单词的个数等于负极性单词的个数,则判定该评论文本为中立评价;如果正极性单词的个数小于负极性单词的个数,则判定该评论文本为负面评价。本工作主要从语言学的角度来考察极性的非对称性,并将这些非对称性应用到自然语言处理的情感分析中。“不”、“有点”两个极性指示器具有充分的语言学解释。
-
公开(公告)号:CN102779190A
公开(公告)日:2012-11-14
申请号:CN201210229377.5
申请日:2012-07-03
Applicant: 北京大学
IPC: G06F17/30
Abstract: 一种时序海量网络新闻的热点事件快速检测方法,包括:将网络新闻文本序列按时间间隔分为区块序列;对第一个区块的新闻文本按狄利克雷过程进行聚类,形成聚类簇集合;把前一区块聚类后的结果进行衰减、过滤,作为后续区块的先验分布,然后对后续区块按按狄利克雷过程进行聚类;对每个聚类簇按照报道量进行事件的热度排序;将排序值最高的T个聚类簇作为热点事件,选取每个聚类簇中tf-idf值最高的M个特征作为热点的关键词,对热点进行展示。本发明可以大大提高网络新闻聚类的效率;同时内存的占用不随数据量的增加而线性增加,适用于大规模文本数据分析。
-
公开(公告)号:CN113204976B
公开(公告)日:2024-03-29
申请号:CN202110419207.2
申请日:2021-04-19
Applicant: 北京大学
IPC: G06F16/332 , G06F18/22 , G06N3/0455 , G06N3/084 , G06F40/35 , G06F40/44 , G06F16/38
Abstract: 本发明公开了一种实时问答方法及系统。本方法为:1)建立并训练一个多任务神经网络并训练;其中多任务神经网络包括文档编码器、问题编码器和排序器,文档编码器和问题编码器为共享同一套训练参数的预训练语言模型网络;2)用文档编码器离线预计算设定文档中各候选答案的上下文表示向量;3)用问题编码器在线编码当前问题的表示向量;4)计算该问题的表示向量与每一候选答案的上下文表示向量之间的相似度;5)找到相似度最高的候选答案在该设定文档中的位置边界信息;6)通过修改该位置边界信息,从该设定文档中确定出若干高质量候选答案;7)用排序器对各高质量候选答案进行排序,选择出排序在最前的高质量答案做为该问题的最终答案。
-
公开(公告)号:CN113204976A
公开(公告)日:2021-08-03
申请号:CN202110419207.2
申请日:2021-04-19
Applicant: 北京大学
Abstract: 本发明公开了一种实时问答方法及系统。本方法为:1)建立并训练一个多任务神经网络并训练;其中多任务神经网络包括文档编码器、问题编码器和排序器,文档编码器和问题编码器为共享同一套训练参数的预训练语言模型网络;2)用文档编码器离线预计算设定文档中各候选答案的上下文表示向量;3)用问题编码器在线编码当前问题的表示向量;4)计算该问题的表示向量与每一候选答案的上下文表示向量之间的相似度;5)找到相似度最高的候选答案在该设定文档中的位置边界信息;6)通过修改该位置边界信息,从该设定文档中确定出若干高质量候选答案;7)用排序器对各高质量候选答案进行排序,选择出排序在最前的高质量答案做为该问题的最终答案。
-
公开(公告)号:CN105427869A
公开(公告)日:2016-03-23
申请号:CN201510731781.6
申请日:2015-11-02
Applicant: 北京大学
CPC classification number: G10L25/63 , G06F17/2705
Abstract: 本发明公开了一种基于深度学习的会话情感自动分析方法,属于自然语言处理、数据挖掘领域。本发明基于去噪自编码器学习语音和文本的表示,再通过深度学习方法将两种表示深度融合,得到高层的统一表示,基于融合后的高层表示再进行情感分析。利用本发明提供的技术方案,可以深度融合声学和文本两种特征,提高情感分类的准确率。
-
公开(公告)号:CN102779190B
公开(公告)日:2014-12-03
申请号:CN201210229377.5
申请日:2012-07-03
Applicant: 北京大学
IPC: G06F17/30
Abstract: 一种时序海量网络新闻的热点事件快速检测方法,包括:将网络新闻文本序列按时间间隔分为区块序列;对第一个区块的新闻文本按狄利克雷过程进行聚类,形成聚类簇集合;把前一区块聚类后的结果进行衰减、过滤,作为后续区块的先验分布,然后对后续区块按按狄利克雷过程进行聚类;对每个聚类簇按照报道量进行事件的热度排序;将排序值最高的T个聚类簇作为热点事件,选取每个聚类簇中tf-idf值最高的M个特征作为热点的关键词,对热点进行展示。本发明可以大大提高网络新闻聚类的效率;同时内存的占用不随数据量的增加而线性增加,适用于大规模文本数据分析。
-
公开(公告)号:CN103064878A
公开(公告)日:2013-04-24
申请号:CN201210468749.X
申请日:2012-11-19
Applicant: 北京大学
Abstract: 本发明提供一种快速序列标注方法,属于语言信息处理领域。所述方法基于随机梯度下降(SGD)在线学习算法,适合大规模语料训练;在训练过程中,针对特征频率,对二阶海森矩阵采用对角化近似,即:利用特征频率高低对对角元素赋予不同权重,与已有的二阶海森矩阵近似算法比较,具有计算代价小的特点;在原有SGD算法的基础上,显著提高了训练速度,且效果好。本方法可以用于语言信息处理的不同层次,包括汉语分词、词性标注和命名实体识别等。
-
-
-
-
-
-