一种基于语义增强的标题短文本分类方法

    公开(公告)号:CN111460147A

    公开(公告)日:2020-07-28

    申请号:CN202010214338.2

    申请日:2020-03-24

    Abstract: 一种基于语义增强的标题短文本分类方法,它属于文本分类技术领域。本发明解决了现有方法对情报数据挖掘中的标题短文本分类的精确度低的问题。本发明对采集的标题短文本以及标题短文本对应的文章内容进行预处理后,将预处理后的文章内容作为样本数据的扩充语料,另外还通过特征检索的方式获得了标题短文本的扩充语料,并且利用验证集对模型参数寻优时获得的优质数据集对训练集进行更新,即本发明对标题短文本进行了CSE编码语义增强和ASE自主语义增强,通过语义增强技术对标题短文本进行分类,可以有效提高FastText分类器在短文本分类上的精确度,分类精度将有近30%的大幅度提升。本发明可以应用于短文本分类。

    一种基于语义增强的标题短文本分类方法

    公开(公告)号:CN111460147B

    公开(公告)日:2023-06-23

    申请号:CN202010214338.2

    申请日:2020-03-24

    Abstract: 一种基于语义增强的标题短文本分类方法,它属于文本分类技术领域。本发明解决了现有方法对情报数据挖掘中的标题短文本分类的精确度低的问题。本发明对采集的标题短文本以及标题短文本对应的文章内容进行预处理后,将预处理后的文章内容作为样本数据的扩充语料,另外还通过特征检索的方式获得了标题短文本的扩充语料,并且利用验证集对模型参数寻优时获得的优质数据集对训练集进行更新,即本发明对标题短文本进行了CSE编码语义增强和ASE自主语义增强,通过语义增强技术对标题短文本进行分类,可以有效提高FastText分类器在短文本分类上的精确度,分类精度将有近30%的大幅度提升。本发明可以应用于短文本分类。

    基于偏旁特征嵌入的中文命名实体识别网络模型

    公开(公告)号:CN114510945A

    公开(公告)日:2022-05-17

    申请号:CN202210157121.1

    申请日:2022-02-21

    Abstract: 基于偏旁特征嵌入的中文命名实体识别网络模型,涉及自然语言处理与中文命名实体识别领域。解决了现有中文命名实体识别算法的语义识别的准确率和F值低的问题。将字符拆分成其偏旁构成的形式,将其映射为偏旁特征向量、并与单词特征向量和字符特征向量,组合后输入到Bi‑LSTM编码层中进行编码中,编码后的特征经CRF解码层解码后得到输入文本的命名实体标签,从而实现对中文命名实体的识别。本发明主要用于对中文命名实体进行识别。

    一种类激活映射方法
    5.
    发明公开

    公开(公告)号:CN111553462A

    公开(公告)日:2020-08-18

    申请号:CN202010270530.3

    申请日:2020-04-08

    Abstract: 一种类激活映射方法,它属于类激活映射图生成研究技术领域。本发明解决了由于梯度的不稳定性,导致以梯度为权重生成的类激活映射图质量受到影响的问题。本发明将AlexNet模型中最后一层卷积层得到的激活图还原为输入图像大小,通过类似掩膜的处理方式,但不同的是将原始输入图像的像素值与还原同等尺寸大小的激活图中对应像素值进行点乘操作,再将生成的掩膜图像样本输入到AlexNet模型中,经过Softmax函数得到各个掩膜图像样本的值,将得到的掩膜图像样本的值作为对应激活图的权重值。再将还原同等尺寸大小的激活图与权重进行线性加权,得到最终的Acc-CAM类激活映射图。本发明可以应用于生成类激活映射图。

Patent Agency Ranking