基于无向图与单层神经网络的中文分词方法

    公开(公告)号:CN107832307A

    公开(公告)日:2018-03-23

    申请号:CN201711218709.9

    申请日:2017-11-28

    Inventor: 夏睿 何声欢

    Abstract: 本发明公开了一种基于无向图与单层神经网络的中文分词方法,首先根据标注集,对给定的训练中文文本进行标注,统计其初始状态系数和状态转移系数;然后根据字典资源文件,对中文文本的每个字符依据其上下文进行特征抽取,得到文本特征;根据所有文本特征,构建特征函数集合,将文本特征转换特征向量;接着将特征向量送给单层神经网络训练分类器模型进行训练,直至模型收敛;再使用单层神经网络模型,对测试数据进行分类,根据统计的初始状态系数、状态转移系数,使用维特比算法进行最优标注序列的求解;最后将最优标注序列与测试原始文本结合,生成分词文本。本发明训练速度更快,消耗资源更少,泛化能力更强。

    基于无向图与单层神经网络的中文分词方法

    公开(公告)号:CN107832307B

    公开(公告)日:2021-02-23

    申请号:CN201711218709.9

    申请日:2017-11-28

    Inventor: 夏睿 何声欢

    Abstract: 本发明公开了一种基于无向图与单层神经网络的中文分词方法,首先根据标注集,对给定的训练中文文本进行标注,统计其初始状态系数和状态转移系数;然后根据字典资源文件,对中文文本的每个字符依据其上下文进行特征抽取,得到文本特征;根据所有文本特征,构建特征函数集合,将文本特征转换特征向量;接着将特征向量送给单层神经网络训练分类器模型进行训练,直至模型收敛;再使用单层神经网络模型,对测试数据进行分类,根据统计的初始状态系数、状态转移系数,使用维特比算法进行最优标注序列的求解;最后将最优标注序列与测试原始文本结合,生成分词文本。本发明训练速度更快,消耗资源更少,泛化能力更强。

Patent Agency Ranking