一种基于层次卷积网络的实体与段落链接方法

    公开(公告)号:CN104915448B

    公开(公告)日:2018-03-27

    申请号:CN201510372795.3

    申请日:2015-06-30

    Abstract: 一种基于层次卷积网络的实体与段落链接方法,包括:利用卷积神经网络通过词向量化表示转化成句子向量化表示;利用句子向量化表示再次经过卷积神经网络并考虑所述句子次序信息得到段落向量化表示;句子向量化表示和段落向量化表示通过Softmax输出,借助已有实体作为监督信息进行所述卷积神经网络模型的训练;同时,考虑段落语义向量特征与实体语义向量特征之间的pair‑wise相似度信息进一步改善卷积神经网络模型的训练;给定一个测试描述段落,利用训练好的神经网络模型进行深层语义特征抽取得到测试段落的向量化表示,然后基于此语义表示经过Softmax输出可直接链接到目标实体上。

    基于非监督关键二元词串提取的微博文本自动摘要方法

    公开(公告)号:CN104216875B

    公开(公告)日:2017-05-03

    申请号:CN201410502810.7

    申请日:2014-09-26

    Abstract: 一种基于非监督关键二元词串提取的微博文本自动摘要方法,包括:微博预处理;二元词串标准化;基于混合TF‑IDF、TextRank和LDA的关键二元词串提取;基于交集相似度和互信息策略的句子排序;基于相似度阈值的摘要句抽取;以及合理组合摘要句以生成摘要。本发明以二元词串作为最小词汇单元,而二元词串比词语具备更丰富的上下文信息,因此基于关键二元词串比基于关键词抽取的句子抗噪性更强,准确率更高。同时,提取摘要句时引入相似度阈值控制冗余,因此摘要具备更高的召回率。本方法生成的摘要准确、简洁、全面,显著提高了用户获取知识的效率和质量,节省了用户大量时间。

    一种基于深度语义特征学习的短文本聚类方法

    公开(公告)号:CN104915386A

    公开(公告)日:2015-09-16

    申请号:CN201510270028.1

    申请日:2015-05-25

    CPC classification number: G06F17/30705 G06F17/2785

    Abstract: 本发明公开了一种基于深度语义特征学习的短文本聚类方法,包括:通过传统的特征降维在局部信息保存的约束下对原始特征进行降维表示,并对得到的低维实值向量进行二值化,做为卷积神经网络结构的监督信息进行误差反向传播训练模型;采用外部大规模语料无监督训练词向量,并对文本中每个词按词序进行向量化表示,做为卷积神经网络结构的初始化输入特征学习文本的隐式语义特征;得到深度语义特征表示后,采用传统的K均值算法对文本进行聚类。本发明的方法不需要额外的自然语言处理等专业知识,设计简单且可学习深度的语义特征,并且,学习到的语义特征具有无偏性,可更有效地达到较好的聚类性能。

Patent Agency Ranking