-
公开(公告)号:CN109543191B
公开(公告)日:2022-12-27
申请号:CN201811454024.9
申请日:2018-11-30
Applicant: 重庆邮电大学
IPC: G06F40/30 , G06F40/284
Abstract: 本发明请求保护一种基于词语关系能量最大化的词向量学习方法,主要包括步骤:1.对语料库进行分词并对每个词语的词向量随机初始化;2.对分好词的语料库进行滑窗操作并构建词共现矩阵;3.将词语与词语之间的能量用初始化后的词向量计算表示;4.将滑窗中目标词与上下文词的能量用词共现矩阵中的值近似替代;5.对所有滑窗内构建能量求和公式并极大化整个语料库的能量进而不断优化目标词的词向量;6.对公式进行转换使极大化语料库能量转变成用词向量内积拟合能量矩阵;7.对能量矩阵使用矩阵分解得到词向量。该发明能够更加显式的表达出词语之间的语义关系,使其在词向量能够表达出词语语义的相关性。
-
公开(公告)号:CN107086935B
公开(公告)日:2020-05-12
申请号:CN201710457666.3
申请日:2017-06-16
Applicant: 重庆邮电大学
Abstract: 本发明涉及基于WIFI AP记录的机场客流分布预测方法,涉及大数据挖掘处理技术领域,从控制中心获取WIFI AP记录进行预处理操作,通过WIFI AP接入设备数量分类WIFI AP,为各类WIFI AP分别构建训练样本集,使用各自的训练样本集分别构建回归模型,根据回归模型获取测试样本集,集合第一类模型和第二类模型的测试样本集获得预测结果,预测机场客流分布。本发明利用相关特性,使用数据挖掘及机器学习的相关方法,对机场的客流分布进行预测,达到有效利用机场资源。
-
公开(公告)号:CN109543191A
公开(公告)日:2019-03-29
申请号:CN201811454024.9
申请日:2018-11-30
Applicant: 重庆邮电大学
IPC: G06F17/27
Abstract: 本发明请求保护一种基于词语关系能量最大化的词向量学习方法,主要包括步骤:1.对语料库进行分词并对每个词语的词向量随机初始化;2.对分好词的语料库进行滑窗操作并构建词共现矩阵;3.将词语与词语之间的能量用初始化后的词向量计算表示;4.将滑窗中目标词与上下文词的能量用词共现矩阵中的值近似替代;5.对所有滑窗内构建能量求和公式并极大化整个语料库的能量进而不断优化目标词的词向量;6.对公式进行转换使极大化语料库能量转变成用词向量内积拟合能量矩阵;7.对能量矩阵使用矩阵分解得到词向量。该发明能够更加显式的表达出词语之间的语义关系,使其在词向量能够表达出词语语义的相关性。
-
公开(公告)号:CN109472020B
公开(公告)日:2022-07-01
申请号:CN201811185491.6
申请日:2018-10-11
Applicant: 重庆邮电大学
IPC: G06F40/289 , G06F40/242 , G06K9/62
Abstract: 本发明请求保护一种特征对齐中文分词方法,包括:101从标记数据和无标记数据中抽取二元词的特征;102通过地球移动距离(Earth Mover’s Distance,以下简称EMD)方法将标记数据和无标记数据进行特征对齐;103通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率;104从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练;105通过建立的模型,对无标记数据进行序列标注分词。本发明主要是通过EMD对标记数据和无标记数据进行特征对齐,并通过分类器学习来预测二元词的成词概率,然后以堆叠的方式整合了条件随机场形成新的分词器。
-
公开(公告)号:CN109472020A
公开(公告)日:2019-03-15
申请号:CN201811185491.6
申请日:2018-10-11
Applicant: 重庆邮电大学
Abstract: 本发明请求保护一种特征对齐中文分词方法,包括:101从标记数据和无标记数据中抽取二元词的特征;102通过地球移动距离(Earth Mover’s Distance,以下简称EMD)方法将标记数据和无标记数据进行特征对齐;103通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率;104从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练;105通过建立的模型,对无标记数据进行序列标注分词。本发明主要是通过EMD对标记数据和无标记数据进行特征对齐,并通过分类器学习来预测二元词的成词概率,然后以堆叠的方式整合了条件随机场形成新的分词器。
-
公开(公告)号:CN107086935A
公开(公告)日:2017-08-22
申请号:CN201710457666.3
申请日:2017-06-16
Applicant: 重庆邮电大学
Abstract: 本发明涉及基于WIFI AP记录的机场客流分布预测方法,涉及大数据挖掘处理技术领域,从控制中心获取WIFI AP记录进行预处理操作,通过WIFI AP接入设备数量分类WIFI AP,为各类WIFI AP分别构建训练样本集,使用各自的训练样本集分别构建回归模型,根据回归模型获取测试样本集,集合第一类模型和第二类模型的测试样本集获得预测结果,预测机场客流分布。本发明利用相关特性,使用数据挖掘及机器学习的相关方法,对机场的客流分布进行预测,达到有效利用机场资源。
-
-
-
-
-