一种基于主题模型和汉字特征的短文本相似度计算方法

    公开(公告)号:CN117574889A

    公开(公告)日:2024-02-20

    申请号:CN202310265739.4

    申请日:2023-03-13

    Abstract: 本发明公开了一种基于主题模型和汉字特征的短文本相似度计算方法,包括步骤1至步骤8,其中步骤1,预处理数据集得到句子列表WListi{i=0,1},步骤2,加载训练的部首矩阵将句子列表转换为部首嵌入矩阵Fi,r,步骤3,加载预训练的词嵌入矩阵将句子列表转换为词嵌入矩阵Fi,w,步骤4,将词嵌入矩阵Fi,w通过主题模型得到主题概率分布矩阵Ti,相对于现有技术,本发明具有如下优点,1)引入了部首特征,增加预训练的丰富性。2)引入了主题模型,在计算相似性之前辅助帮助模型就更加准确的来判断两个句子是否属于同一主题,提高了相似性计算的概率3)在文本表示的基础上利用注意机制学习两个句子之间的关系,将句子对之间的相似度关系赋予不同的权重,增强神经网络学习到的表征信息。

Patent Agency Ranking