一种中文实体提取方法及装置

    公开(公告)号:CN111291550A

    公开(公告)日:2020-06-16

    申请号:CN202010054462.7

    申请日:2020-01-17

    Abstract: 本发明实施例公开了一种中文实体提取方法及装置,方法包括:将目标源语句切分成各个子句;对子句中的字进行向量化处理得到字向量;根据字向量及层级的双向长短期记忆网络BiLSTM确定由长短期记忆网络LSTM得到每个字分别对应的各个标签的概率矩阵;将概率矩阵输入CRF模型中得到每个字分别对应的各个标签中概率最大的标签;提取由概率最大的标签对应的字组成的实体。本发明实施例将目标源语句切分成各个子句,利于后续在字级别学习子句内语义表示及在子句级别学习子句间语义表示;通过CRF模型,确定每个字分别对应的各个标签中概率最大的标签并提取由概率最大的标签对应的字组成的中文实体,提高了中文实体识别的准确性。

    一种中文实体提取方法及装置

    公开(公告)号:CN111291550B

    公开(公告)日:2021-09-03

    申请号:CN202010054462.7

    申请日:2020-01-17

    Abstract: 本发明实施例公开了一种中文实体提取方法及装置,方法包括:将目标源语句切分成各个子句;对子句中的字进行向量化处理得到字向量;根据字向量及层级的双向长短期记忆网络BiLSTM确定由长短期记忆网络LSTM得到每个字分别对应的各个标签的概率矩阵;将概率矩阵输入CRF模型中得到每个字分别对应的各个标签中概率最大的标签;提取由概率最大的标签对应的字组成的实体。本发明实施例将目标源语句切分成各个子句,利于后续在字级别学习子句内语义表示及在子句级别学习子句间语义表示;通过CRF模型,确定每个字分别对应的各个标签中概率最大的标签并提取由概率最大的标签对应的字组成的中文实体,提高了中文实体识别的准确性。

Patent Agency Ranking