一种基于门控主题模型的无监督关键词抽取方法

    公开(公告)号:CN117390157B

    公开(公告)日:2025-05-06

    申请号:CN202311341725.2

    申请日:2023-10-17

    Abstract: 本发明涉及一种基于门控主题模型的无监督关键词抽取方法,属于人工智能、大数据、自然语言处理领域。本发明提出了一种语义自适应的文档语义表示方法,在整个语料库上训练一个神经主题模型来挖掘该领域的相关主题,并采用门控机制对文档主题进行独立加权,使具有较高语义丰富度的文档被分配相对更多的主题;利用文档主题信息设计了一种新的关键词评分算法,同时考虑了主题相似度与主题重要度对关键词评判的影响。通过这两方面因素的折衷,避免了对文本核心主题的过度关注,从而提高了所抽取关键词的多样性。

    基于LDA主题模型的文档推荐方法
    2.
    发明公开

    公开(公告)号:CN115017293A

    公开(公告)日:2022-09-06

    申请号:CN202210566870.X

    申请日:2022-05-23

    Abstract: 本发明涉及一种基于LDA主题模型的文档推荐方法,属于信息技术领域。本发明使用了LDA主题模型将每个文档进行向量化,并输出该文档的主题概率,将推荐系统中的所有文档主题概率结合起来便能得到一个文档对主题的矩阵。另一方面,通过给新用户初始化来赋予每个用户一个主题概率,并使用户主题概率的维度与文档主题概率的维度保持一致,然后将所有用户主题概率结合起来得到一个用户对主题的矩阵。最后,通过用户和文档的两个主题概率矩阵,计算出用户对文档的兴趣值并将相应文档推荐给用户。这种推荐方法可以广泛运用在文档推荐系统中,并适用于各类文档。

    一种基于门控主题模型的无监督关键词抽取方法

    公开(公告)号:CN117390157A

    公开(公告)日:2024-01-12

    申请号:CN202311341725.2

    申请日:2023-10-17

    Abstract: 本发明涉及一种基于门控主题模型的无监督关键词抽取方法,属于人工智能、大数据、自然语言处理领域。本发明提出了一种语义自适应的文档语义表示方法,在整个语料库上训练一个神经主题模型来挖掘该领域的相关主题,并采用门控机制对文档主题进行独立加权,使具有较高语义丰富度的文档被分配相对更多的主题;利用文档主题信息设计了一种新的关键词评分算法,同时考虑了主题相似度与主题重要度对关键词评判的影响。通过这两方面因素的折衷,避免了对文本核心主题的过度关注,从而提高了所抽取关键词的多样性。

    一种军事领域标注数据修正与事件检测方法

    公开(公告)号:CN117217222A

    公开(公告)日:2023-12-12

    申请号:CN202310746380.2

    申请日:2023-06-25

    Abstract: 本发明涉及一种军事领域标注数据修正与事件检测方法,属于信息抽取技术领域。本发明使用原始数据集训练模型,并对原始标注数据进行预测,对于预测得分大于一定阈值的样本,将原始数据集的标注结果修改为模型预测结果,从而修正数据集中的错误标注数据和污染数据,提高训练集的质量。本发明在模型训练时引入了分层学习率策略,为靠近下游任务的模型层参数设置更大的学习率,提高预训练模型对于下游任务的适配能力;在模型推理时采用基于投票修正的模型融合方法,通过模型集成的方式提升少样本类别事件的召回率和准确率,融合多个模型的投票结果确定最终预测结果,从而提升模型的鲁棒性。

Patent Agency Ranking