-
公开(公告)号:CN108108354A
公开(公告)日:2018-06-01
申请号:CN201711380014.0
申请日:2017-12-20
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于深度学习的微博用户性别预测方法,属于Web挖掘和智能信息处理领域。该预测方法包括:微博信息采集;微博文本预处理;构建微博文本词语的词向量;采用一种基于卷积神经网络的微博文本表示方法来构建微博文本句子的特征向量;采用一种基于长短期记忆网络模型的方法进行微博用户的性别预测或分类。基于卷积神经网络的微博文本表示方法不需要人工构建微博文本特征,能够实现对微博文本的语义建模。基于长短期记忆网络的微博用户性别预测方法能够提取微博文本中的语义序列依赖关系特征。本发明的微博用户性别预测方法准确地提取了微博文本特征,提高了微博用户性别的识别性能,在信息推荐、产品营销领域具有广阔的应用前景。
-
公开(公告)号:CN108108184B
公开(公告)日:2020-12-04
申请号:CN201711380042.2
申请日:2017-12-20
Applicant: 北京理工大学
Abstract: 本发明公开了一种基于深度信念网络的源代码作者识别方法,属于Web挖掘和信息抽取领域。本发明包括如下步骤:构建源代码数据集,对源代码数据进行预处理;基于连续n‑gram代码段模型提取源代码特征;基于训练源代码文件样本训练深度信念网络模型;利用经过训练的深度信念网络模型进行源代码文件的作者识别,输出源代码文件的作者识别结果。本发明将源代码作者识别问题转换为分类问题,通过深度信念网络识别源代码的作者身份,提高了作者身份识别的性能和效率,在信息检索、信息安全、计算机取证等领域具有广阔的应用前景。
-
公开(公告)号:CN108108184A
公开(公告)日:2018-06-01
申请号:CN201711380042.2
申请日:2017-12-20
Applicant: 北京理工大学
Abstract: 本发明公开了一种基于深度信念网络的源代码作者识别方法,属于Web挖掘和信息抽取领域。本发明包括如下步骤:构建源代码数据集,对源代码数据进行预处理;基于连续n‑gram代码段模型提取源代码特征;基于训练源代码文件样本训练深度信念网络模型;利用经过训练的深度信念网络模型进行源代码文件的作者识别,输出源代码文件的作者识别结果。本发明将源代码作者识别问题转换为分类问题,通过深度信念网络识别源代码的作者身份,提高了作者身份识别的性能和效率,在信息检索、信息安全、计算机取证等领域具有广阔的应用前景。
-
公开(公告)号:CN108108354B
公开(公告)日:2021-04-06
申请号:CN201711380014.0
申请日:2017-12-20
Applicant: 北京理工大学
IPC: G06F40/253 , G06F16/9535 , G06N3/08 , G06Q50/00
Abstract: 本发明涉及一种基于深度学习的微博用户性别预测方法,属于Web挖掘和智能信息处理领域。该预测方法包括:微博信息采集;微博文本预处理;构建微博文本词语的词向量;采用一种基于卷积神经网络的微博文本表示方法来构建微博文本句子的特征向量;采用一种基于长短期记忆网络模型的方法进行微博用户的性别预测或分类。基于卷积神经网络的微博文本表示方法不需要人工构建微博文本特征,能够实现对微博文本的语义建模。基于长短期记忆网络的微博用户性别预测方法能够提取微博文本中的语义序列依赖关系特征。本发明的微博用户性别预测方法准确地提取了微博文本特征,提高了微博用户性别的识别性能,在信息推荐、产品营销领域具有广阔的应用前景。
-
-
-