-
公开(公告)号:CN106547739B
公开(公告)日:2019-04-02
申请号:CN201610955776.8
申请日:2016-11-03
Applicant: 同济大学
IPC: G06F17/27
Abstract: 一种文本语义相似度分析方法。本发明涉及文本分析领域,特别涉及到一种基于语义特征的文本相似度分析方法。本发明的技术方案是利用文本内部词汇内在的语义联系进行计算,以达到更加准确有效地分析文本之间的相似程度。该方法通过奇异值分解浅层分析文本之间以及词项之间的关联关系,借助贝叶斯网络构建词项‐主题集,用互信息以及上下文计算词项之间的语义相似度,最后通过图结构计算文本的相似度。本发明能够更加准确有效地度量和识别文本之间的语义关系。
-
公开(公告)号:CN107608953A
公开(公告)日:2018-01-19
申请号:CN201710609471.6
申请日:2017-07-25
Applicant: 同济大学
Abstract: 一种基于不定长上下文的词向量生成方法。本发明涉及自然语言处理领域,特别涉及到基于不定长上下文的词向量生成方法。本发明的技术方案提出了一种不定长度的上下文划分策略和基于不定长上下文的词向量生成方法。这种策略利用标点符号把语料库划分成了长度不定,但语义完整的上下文。长度的不固定导致了传统的语言模型无法利用这种上下文生成词向量。为了应对这难题,本文结合卷积神经网络和循环神经网络设计了一个可以处理不定长上下文的语言模型F-Model。经过实施结果分析,使用标点把语料库划分成语义完整的上下文可以提高词向量的质量。F-Model具有良好的学习能力,实施得到的词向量蕴含丰富的语义和较好的线性关系。
-
公开(公告)号:CN107608953B
公开(公告)日:2020-08-14
申请号:CN201710609471.6
申请日:2017-07-25
Applicant: 同济大学
IPC: G06F40/289 , G06F40/30 , G06N3/08
Abstract: 一种基于不定长上下文的词向量生成方法。本发明涉及自然语言处理领域,特别涉及到基于不定长上下文的词向量生成方法。本发明的技术方案提出了一种不定长度的上下文划分策略和基于不定长上下文的词向量生成方法。这种策略利用标点符号把语料库划分成了长度不定,但语义完整的上下文。长度的不固定导致了传统的语言模型无法利用这种上下文生成词向量。为了应对这难题,本文结合卷积神经网络和循环神经网络设计了一个可以处理不定长上下文的语言模型F‑Model。经过实施结果分析,使用标点把语料库划分成语义完整的上下文可以提高词向量的质量。F‑Model具有良好的学习能力,实施得到的词向量蕴含丰富的语义和较好的线性关系。
-
公开(公告)号:CN107562784A
公开(公告)日:2018-01-09
申请号:CN201710609311.1
申请日:2017-07-25
Applicant: 同济大学
Abstract: 基于ResLCNN模型的短文本分类方法。本发明涉及文本挖掘和深度学习技术领域,特别涉及到用于短文本分类的深度学习模型。本发明的技术方案是结合长短时记忆网络和卷积神经网络的特性,搭建了用于短文本分类的ResLCNN深层文本分类模型。该模型包含三层长短时记忆网络层和一层卷积神经网络层,并借鉴残差模型理论,在第一层长短时记忆网络层与卷积神经网络层之间加入恒等映射,构建残差层,缓解了深层模型梯度消失问题。该模型有效结合长短时记忆网络获取文本序列数据的长距离依赖特征和卷积神经网络通过卷积操作获取句子局部特征的优势,提高了短文本分类效果。
-
公开(公告)号:CN106547739A
公开(公告)日:2017-03-29
申请号:CN201610955776.8
申请日:2016-11-03
Applicant: 同济大学
IPC: G06F17/27
CPC classification number: G06F17/2785
Abstract: 一种文本语义相似度分析方法。本发明涉及文本分析领域,特别涉及到一种基于语义特征的文本相似度分析方法。本发明的技术方案是利用文本内部词汇内在的语义联系进行计算,以达到更加准确有效地分析文本之间的相似程度。该方法通过奇异值分解浅层分析文本之间以及词项之间的关联关系,借助贝叶斯网络构建词项‐主题集,用互信息以及上下文计算词项之间的语义相似度,最后通过图结构计算文本的相似度。本发明能够更加准确有效地度量和识别文本之间的语义关系。
-
-
-
-