-
公开(公告)号:CN106484674B
公开(公告)日:2020-09-25
申请号:CN201610835901.1
申请日:2016-09-20
Applicant: 北京工业大学
IPC: G06F40/253 , G16H10/60 , G06N3/08
Abstract: 本发明公开一种基于深度学习的中文电子病历概念抽取方法,包括:利用多层稀疏自动编码器的深层架构训练出目标词的上下文分布式特征,之后合并本身具有高级概念意义的实体特征——标记特征和词性特征为整体特征,将整体特征输入到深度信念网络中进行模型训练。比对样本的标记特征进行残差计算,通过有监督地微调,对整个深层架构的性能进行优化调整。本发明的方法充分利用了深度学习对特征进行深层优化的特点,同时加入了实体特征作为先验知识,在减少了对于人工特征依赖的同时,可提高分类和预测的准确性。
-
公开(公告)号:CN106484674A
公开(公告)日:2017-03-08
申请号:CN201610835901.1
申请日:2016-09-20
Applicant: 北京工业大学
Abstract: 本发明公开一种基于深度学习的中文电子病历概念抽取方法,包括:利用多层稀疏自动编码器的深层架构训练出目标词的上下文分布式特征,之后合并本身具有高级概念意义的实体特征——标记特征和词性特征为整体特征,将整体特征输入到深度信念网络中进行模型训练。比对样本的标记特征进行残差计算,通过有监督地微调,对整个深层架构的性能进行优化调整。本发明的方法充分利用了深度学习对特征进行深层优化的特点,同时加入了实体特征作为先验知识,在减少了对于人工特征依赖的同时,可提高分类和预测的准确性。
-
公开(公告)号:CN106372064B
公开(公告)日:2019-04-19
申请号:CN201611020416.5
申请日:2016-11-18
Applicant: 北京工业大学
Abstract: 本发明提供了一种文本挖掘的特征权重计算方法,将文本特征词的向量表征为分布式表达的实数值向量;根据表征特征词的分布式表达实数值向量,计算获取与该特征词关联度较大的特征词集;通过TextRank算法计算特征词的权重时,将两两特征词间的关联度加入到特征值权重的计算中;通过TextRank算法计算与该特征词关联度较大的其他特征词权重,即特征词集,并同样在计算中加入两两特征词间的关联度。采用本发明的技术方案,可以显著提高文本特征词权重的计算准确率,并能应用于文本的特征词抓取,文本分类和文本聚类中。
-
公开(公告)号:CN106372064A
公开(公告)日:2017-02-01
申请号:CN201611020416.5
申请日:2016-11-18
Applicant: 北京工业大学
CPC classification number: G06F17/277 , G06F17/30705
Abstract: 本发明提供了一种文本挖掘的特征权重计算方法,将文本特征词的向量表征为分布式表达的实数值向量;根据表征特征词的分布式表达实数值向量,计算获取与该特征词关联度较大的特征词集;通过TextRank算法计算特征词的权重时,将两两特征词间的关联度加入到特征值权重的计算中;通过TextRank算法计算与该特征词关联度较大的其他特征词权重,即特征词集,并同样在计算中加入两两特征词间的关联度。采用本发明的技术方案,可以显著提高文本特征词权重的计算准确率,并能应用于文本的特征词抓取,文本分类和文本聚类中。
-
-
-