-
公开(公告)号:CN106250526A
公开(公告)日:2016-12-21
申请号:CN201610635123.1
申请日:2016-08-05
Applicant: 浪潮电子信息产业股份有限公司
CPC classification number: G06F17/277 , G06F16/3344 , G06F16/3347 , G06F16/335 , G06F16/338 , G06F16/9535 , G06F17/2715 , G06F17/2735
Abstract: 本发明提供一种基于内容及用户行为的文本类推荐方法,该方法包括步骤:获取待分析的文档集合,对文档集合中的文档进行中文分词得到多个词项;对文档集合中的词项进行信息增益计算,按照信息增益量的大小排序筛选多个词项作为基准向量;根据基准向量,将文档集合中的文本转换为多维的空间向量模型;对空间向量模型进行TF-IDF计算,得到文本向量矩阵;计算不同的文本向量矩阵之间的相似度,形成文档关系矩阵;分析用户行为数据,结合文档关系矩阵,形成推荐列表推荐给用户。该装置包括分词模块、IG计算模块、降维模块、TF-IDF计算模块、相似度计算模块和推荐模块。该方法和装置,能够提升用户文本内容推荐的有效性。
-
公开(公告)号:CN106294689A
公开(公告)日:2017-01-04
申请号:CN201610639904.8
申请日:2016-08-05
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F17/30
CPC classification number: G06F17/30699 , G06F17/3071 , G06F17/30731
Abstract: 本发明提供一种基于文本类特征选择进行降维的方法和装置,该方法包括步骤:获取待处理的文本;采用HanLP进行分词得到多个词项,去除所述词项中的停用词;统计词频、词项文档频率以及文档词数;将词项、词频和词项文档频率以及文档词数存储并形成初级文本向量;对初级文本向量进行信息增益计算,按照信息增益量的大小排序,将满足预设要求的词汇形成特征选择的基准向量;将待处理的文本按照基准向量进行降维,形成降维后的文本向量。该装置包括:获取模块、分词模块、统计模块、向量模块、信息增益计算模块和降维模块。该方法和装置,基于信息增益算法进行文本特征选择,对特征词集合向量进行降维处理,减少了维度过大造成的计算负担。
-
公开(公告)号:CN106294689B
公开(公告)日:2018-09-25
申请号:CN201610639904.8
申请日:2016-08-05
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F17/30
Abstract: 本发明提供一种基于文本类特征选择进行降维的方法和装置,该方法包括步骤:获取待处理的文本;采用HanLP进行分词得到多个词项,去除所述词项中的停用词;统计词频、词项文档频率以及文档词数;将词项、词频和词项文档频率以及文档词数存储并形成初级文本向量;对初级文本向量进行信息增益计算,按照信息增益量的大小排序,将满足预设要求的词汇形成特征选择的基准向量;将待处理的文本按照基准向量进行降维,形成降维后的文本向量。该装置包括:获取模块、分词模块、统计模块、向量模块、信息增益计算模块和降维模块。该方法和装置,基于信息增益算法进行文本特征选择,对特征词集合向量进行降维处理,减少了维度过大造成的计算负担。
-
-