-
公开(公告)号:CN111368072A
公开(公告)日:2020-07-03
申请号:CN201910770568.4
申请日:2019-08-20
Applicant: 河北工程大学
IPC: G06F16/35 , G06F16/34 , G06F40/211 , G06F40/289 , G06F40/30 , G06K9/62
Abstract: 本发明为一种基于BTM和GloVe相似度线性融合的微博热点话题发现算法,其特征在于由数据采集及预处理、建模、聚类三个阶段,先进行数据采集及预处理,然后将得到的数据进行建模,再将建模后的数据进行聚类;本发明针对K-means算法的距离函数会影响微博热点话题聚类结果这一问题,提出一种基于BTM和GloVe相似度线性融合的微博热点话题发现算法。GloVe模型仅训练词与词共现矩阵中的非零元素而不是整个稀疏矩阵来利用统计信息,有效地缓解了TF-IDF算法在构建文档-词向量矩阵过程中所面临的稀疏性问题。GloVe模型同时结合了全局矩阵分解和局部上下文窗口的方法,训练出的词向量能够携带更多的语义信息,在一定程度上能够缓解BTM主题模型不能较好解决的一词多义问题。
-
公开(公告)号:CN111061866B
公开(公告)日:2024-01-02
申请号:CN201910769654.3
申请日:2019-08-20
Applicant: 河北工程大学
IPC: G06F16/35 , H04N21/235 , H04N21/435
Abstract: 本发明提出一种基于特征扩展和T‑oBTM的弹幕文本聚类方法,包括网络新词处理阶段、主题建模阶段、文本聚类阶段三个步骤阶段,本发明提出了一种根据弹幕特点对词对进行阈值约束的oBTM流式短文本聚类方法(T‑oBTM),减少了算法执行时间,并对网络新词进行识别和处理,达到了扩展文本特征的目的,进而提高了算法精度。本发明对网络新词进行识别与处理,丰富分词词库,提高了分词精度;网络新词处理时,对识别出的实体名词和情感、观点、看法类词语进行区别处理,扩展了短文本特征,提高了聚类精度。
-
公开(公告)号:CN109783816B
公开(公告)日:2023-04-07
申请号:CN201910027851.8
申请日:2019-01-11
Applicant: 河北工程大学
IPC: G06F16/35 , G06F40/289 , G06F18/23213 , G06F18/22
Abstract: 本发明适用于信息处理技术领域,提供了一种短文本聚类方法及终端设备,该方法包括:对短文本集进行预处理,获得所述短文本集中的所有文本;根据所述所有文本,计算所述所有文本与其它文本的相似度;根据所述所有文本与其它文本的相似度,确定所述所有文本的聚类中心;根据所述聚类中心,对所述所有文本进行聚类处理。本发明实施例可以解决现有技术中聚类依赖于初始聚类中心的选取及初始划分,导致聚类结果可能不同于数据集样本的真实分布,得到错误的结果,或者使聚类很难收敛的问题。
-
公开(公告)号:CN111061866A
公开(公告)日:2020-04-24
申请号:CN201910769654.3
申请日:2019-08-20
Applicant: 河北工程大学
IPC: G06F16/35 , H04N21/235 , H04N21/435
Abstract: 本发明提出一种基于特征扩展和T-oBTM的弹幕文本聚类方法,包括网络新词处理阶段、主题建模阶段、文本聚类阶段三个步骤阶段,本发明提出了一种根据弹幕特点对词对进行阈值约束的oBTM流式短文本聚类方法(T-oBTM),减少了算法执行时间,并对网络新词进行识别和处理,达到了扩展文本特征的目的,进而提高了算法精度。本发明对网络新词进行识别与处理,丰富分词词库,提高了分词精度;网络新词处理时,对识别出的实体名词和情感、观点、看法类词语进行区别处理,扩展了短文本特征,提高了聚类精度。
-
公开(公告)号:CN109299280B
公开(公告)日:2020-09-29
申请号:CN201811517917.3
申请日:2018-12-12
Applicant: 河北工程大学
IPC: G06F16/35 , G06F40/289
Abstract: 本发明适用于文本分析技术领域,提供了一种短文本聚类分析方法、装置和终端设备。该方法包括:获取待聚类的短文本数据集,并对短文本数据集进行预处理得到包括至少三种词性的初始词集;对初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集;根据主题特征词集和主题关联词集的相关性确定预设个数的主题特征词和主题关联词,主题特征词与主题关联词一一对应组成知识对;将预设个数的知识对输入到LDA中进行聚类并确定该待聚类的短文本数据集的情感主题。本发明优化了文本分析算法,能够更准确地进行短文本的情感主题聚类,提高短文本聚类的效率。
-
公开(公告)号:CN110473073A
公开(公告)日:2019-11-19
申请号:CN201910774147.9
申请日:2019-08-21
Applicant: 河北工程大学
IPC: G06Q30/06 , G06F16/9535
Abstract: 本发明适用于信息处理技术领域,提供了一种线性加权推荐的方法及装置,该方法包括:根据采集的待分析数据集,构建用户项目评分矩阵以及用户属性矩阵;根据用户项目评分矩阵对未评分的项目进行预测评分,获得各个用户对对应项目的第一评分;根据用户属性矩阵以及用户项目评分矩阵对目标用户的未评分的项目进行预测评分,获得目标用户对对应项目的第二评分;对第一评分和第二评分进行线性混合加权处理,获得目标用户对对应项目的第三评分;将第三评分中大于预设评分阈值的项目推荐给对应的目标用户,从而可以解决现有技术中针对长尾物品以及个性化需求的推荐较少,导致推荐结果准确性较低的问题。
-
公开(公告)号:CN109783816A
公开(公告)日:2019-05-21
申请号:CN201910027851.8
申请日:2019-01-11
Applicant: 河北工程大学
Abstract: 本发明适用于信息处理技术领域,提供了一种短文本聚类方法及终端设备,该方法包括:对短文本集进行预处理,获得所述短文本集中的所有文本;根据所述所有文本,计算所述所有文本与其它文本的相似度;根据所述所有文本与其它文本的相似度,确定所述所有文本的聚类中心;根据所述聚类中心,对所述所有文本进行聚类处理。本发明实施例可以解决现有技术中聚类依赖于初始聚类中心的选取及初始划分,导致聚类结果可能不同于数据集样本的真实分布,得到错误的结果,或者使聚类很难收敛的问题。
-
公开(公告)号:CN109299280A
公开(公告)日:2019-02-01
申请号:CN201811517917.3
申请日:2018-12-12
Applicant: 河北工程大学
Abstract: 本发明适用于文本分析技术领域,提供了一种短文本聚类分析方法、装置和终端设备。该方法包括:获取待聚类的短文本数据集,并对短文本数据集进行预处理得到包括至少三种词性的初始词集;对初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集;根据主题特征词集和主题关联词集的相关性确定预设个数的主题特征词和主题关联词,主题特征词与主题关联词一一对应组成知识对;将预设个数的知识对输入到LDA中进行聚类并确定该待聚类的短文本数据集的情感主题。本发明优化了文本分析算法,能够更准确地进行短文本的情感主题聚类,提高短文本聚类的效率。
-
-
-
-
-
-
-