一种基于限定领域的分词方法及系统

    公开(公告)号:CN114330307A

    公开(公告)日:2022-04-12

    申请号:CN202110483554.1

    申请日:2021-04-30

    Abstract: 本发明公开了一种基于限定领域的分词方法及系统,方法包括:对限定领域的数据进行预处理,对预处理后得到的数据中的命名实体进行识别,并抽取出数据中的实体词汇,得到命名实体识别结果;基于预处理后得到的数据计算限定领域语料中的特征信息,并根据得到的特征信息构建新词发现模型,利用新词发现模型对语料库中的新词进行识别,以获取新词数据组;利用所述命名实体识别结果及常用词词典对获取的新词数据组进行过滤,排除掉常用词汇和实体词汇,以获取并确认敏感词,并基于确认后的敏感词建立敏感词库;结合敏感词库中获取的敏感词信息和命名实体识别结果进行分词。解决了现有技术中在限定领域中分词准确性较差的技术问题。

    面向大规模分类体系的短文本标签方法、系统、装置

    公开(公告)号:CN110059181B

    公开(公告)日:2021-06-25

    申请号:CN201910202727.0

    申请日:2019-03-18

    Abstract: 本发明属于文本分类领域,具体涉及一种面向大规模分类体系的短文本标签方法、系统、装置,旨在为了解决有限数据情况下面向大规模分类体系的短文本标签系统的稳定性不高的问题。本发明方法包括:获取待分类的第一短文本信息集合,并基于正向最大匹配分词和word2vec词向量表示技术进行预处理得到第二短文本信息集合;基于规则的分类方法、有监督的神经网络分类方法,对第二短文本信息集合进行二分类后进行短文本过滤,并基于同样的分类方法进行各短文本的第一、二级分类标签,基于半监督学习的标签传播方法进行各短文本的第三、四级分类标签。本发明在有限数据情况下保证了面向大规模分类体系的短文本标签系统的稳定性。

Patent Agency Ranking