一种基于长篇科学文献的关键词抽取方法

    公开(公告)号:CN115526185A

    公开(公告)日:2022-12-27

    申请号:CN202211243691.9

    申请日:2022-10-11

    Applicant: 新疆大学

    Abstract: 本发明提供一种基于长篇科学文献的关键词抽取方法。对科学文献的单词进行统计,统计字数长度在8000‑40000字,人工统计时间在10‑60分钟,将长篇科学文献进行分块处理,再对文档进行标记并用词性Part‑Of‑Speech(POS)标签标记文档。本发明提供的基于长篇科学文献的关键词抽取方法,通过引入“分块”的概念,极大的完善了BERT模型固有的对输入端长度的限制,提出了Block‑BERT模型进行处理,联合全局和局部信息,保留全面的语义信息,有效的对长篇科学文献进行关键词的提取,与现有的模型相比,性能得到了极大的提升,尽量避免了关键词语义信息的缺失,提出新的节点中心性的计算排名方法Block‑Rank,局部信息采用基于图结构模型来衡量节点的重要程度。

    一种基于双通道语义增强的弹幕情感分析模型构建方法

    公开(公告)号:CN120020816A

    公开(公告)日:2025-05-20

    申请号:CN202311561003.8

    申请日:2023-11-20

    Applicant: 新疆大学

    Abstract: 本发明基于深度学习方法,公开了一种基于双通道语义增强的弹幕情感分析模型构建方法。该方法首先获取弹幕文本并完成数据标注,形成弹幕数据集;然后,进行去除停用词、删除无意义标点符号等数据预处理操作;随后,通过BERT进行词嵌入;继而,使用GCN模块和Bi‑LSTM模块组成双通道分别提取全局语义特征和语序特征,并将两个通道提取到的特征进行融合;紧接着,使用句向量增强机制对融合后特征进行增强;接下来,利用DPCNN模型提取增强后特征中的高层次特征并降低维度;最后,使用多层感知机对DPCNN提取的低维高层次特征进行情感分类。该方法能够解决现有弹幕情感分析模型构建方法中的语义信息提取不足、语义丢失和分类维度过高问题。

Patent Agency Ranking