一种基于双重多样性生成的文本增强方法

    公开(公告)号:CN119862884A

    公开(公告)日:2025-04-22

    申请号:CN202411706999.1

    申请日:2024-11-27

    Abstract: 本发明公开了一种基于双重多样性生成的文本增强方法,具体包括以下步骤:首先对文本数据进行分词并通过ELMo模型进行词向量表示;再对得到的词向量进行平滑反频率加权得到词语嵌入和句子嵌入,更好地捕捉中心话题;计算词语嵌入和句子嵌入之间的最大边界相关性,引入关键词多样性,根据排序结果选取Top K关键词作为其最终提取的关键词,解决了抽取出来的关键词的语义重复问题;将抽取出来的关键词映射回原始文本的位置,剩余部分使用MASK token替换,同时,将标签作为提示添加到文本前构建好了草稿;再将草稿输入到文本增强模型GENIUS中生成新样本,引入样本多样性。本发明提升了文本增强的样本质量,解决增强样本缺乏多样性的问题。

    一种基于输入边缘化的文本分类模型可解释方法

    公开(公告)号:CN119862967A

    公开(公告)日:2025-04-22

    申请号:CN202411744702.0

    申请日:2024-12-02

    Abstract: 本发明公开了一种基于输入边缘化的文本分类模型可解释方法,步骤:首先对文本数据进行前处理操作,训练待解释模型,并构建词表,针对待解释模型利用与模型无关的局部可解释方法初步筛选候选特征并生成待边缘化样本,通过掩码语言模型与模型前馈对样本进行边缘化,预测特征的重要性,在过程中通过阈值截断节约计算成本,最终经过组合权重输出解释结果。同时提出新的解释稳定性指数作为可解释算法评价指标,该指标既考虑了特征间序关系及解释翻转等特征层面问题,又关注了邻次解释特征权值差值,可对算法解释结果作多维度、精细化的评估。本发明显著提高文本分类模型可解释算法的稳定性,并提高了解释结果的科学性。

Patent Agency Ranking