一种网络语境的文本识别方法、装置及存储介质

    公开(公告)号:CN111581970B

    公开(公告)日:2023-01-24

    申请号:CN202010396183.9

    申请日:2020-05-12

    Abstract: 本发明提出了一种网络语境的文本识别方法、装置及存储介质,该方法包括:基于文本长窗口构建风格语义模型,基于文本短窗口构建偏旁级语义模型;使用网络语境的语料库基于风格语义模型向量模型和偏旁级语义模型训练得到网络语境的中文词向量模型;使用所述网络语境的中文词向量模型对输入的网络语境的文本进行识别并输出识别结果。本发明在分词时使用两个不同窗口,长窗口用于提取网络化风格的语义信息,文本短窗口用于提取不同细粒度的语义特征,在训练阶段将二者结合,获得更加准确的词向量表达,以提高网络语境的文本识别率,本发明优化了目标函数,使得模型训练速度加快,在训练时,还建立了部首转义的方法,从而提高了文本的识别率。

    基于中文词向量模型的文本识别方法、装置及存储介质

    公开(公告)号:CN111563379B

    公开(公告)日:2022-12-02

    申请号:CN202010396412.7

    申请日:2020-05-12

    Abstract: 本发明提出了一种基于中文词向量模型的文本识别方法、装置及存储介质,该方法包括:基于目标词、上下文窗口词和目标词声调n‑grams构建第一中文词向量模型和第二中文词向量模型;基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证,提高了识别准确率,且构建词向量时使用了声调这一元素,丰富中文词向量所包含信息,避免了特征噪声对词向量的影响,最大程度的保留目标词的语义和语调特征,引入了负样本并构建了损失函数。

    一种网络语境的文本识别方法、装置及存储介质

    公开(公告)号:CN111581970A

    公开(公告)日:2020-08-25

    申请号:CN202010396183.9

    申请日:2020-05-12

    Abstract: 本发明提出了一种网络语境的文本识别方法、装置及存储介质,该方法包括:基于文本长窗口构建风格语义模型,基于文本短窗口构建偏旁级语义模型;使用网络语境的语料库基于风格语义模型向量模型和偏旁级语义模型训练得到网络语境的中文词向量模型;使用所述网络语境的中文词向量模型对输入的网络语境的文本进行识别并输出识别结果。本发明在分词时使用两个不同窗口,长窗口用于提取网络化风格的语义信息,文本短窗口用于提取不同细粒度的语义特征,在训练阶段将二者结合,获得更加准确的词向量表达,以提高网络语境的文本识别率,本发明优化了目标函数,使得模型训练速度加快,在训练时,还建立了部首转义的方法,从而提高了文本的识别率。

    基于中文词向量模型的文本识别方法、装置及存储介质

    公开(公告)号:CN111563379A

    公开(公告)日:2020-08-21

    申请号:CN202010396412.7

    申请日:2020-05-12

    Abstract: 本发明提出了一种基于中文词向量模型的文本识别方法、装置及存储介质,该方法包括:基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型;基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证,提高了识别准确率,且构建词向量时使用了声调这一元素,丰富中文词向量所包含信息,避免了特征噪声对词向量的影响,最大程度的保留目标词的语义和语调特征,引入了负样本并构建了损失函数。

Patent Agency Ranking