基于拼音和BERT嵌入的中文语义匹配方法

    公开(公告)号:CN111414481B

    公开(公告)日:2023-09-26

    申请号:CN202010197034.X

    申请日:2020-03-19

    Abstract: 本发明提供了一种基于拼音和BERT嵌入的中文语义匹配方法,包括:构建包括数据预处理模块、BERT嵌入层模块、池化层模块和分类器模块的语义匹配模型,并对语义匹配模型进行训练,以利用训练好的语义匹配模型对待匹配语句进行中文语义匹配;数据预处理模块对待匹配的两个中文语句中的每个字进行拼音转换以及拼音切分,得到对应的拼音序列;BERT嵌入层模块根据所得拼音序列的上下文为其中每个拼音进行嵌入向量生成,得到嵌入向量序列;池化层模块将嵌入向量序列聚合成用于分类的一维语义表征向量;分类器模块根据一维语义表征向量进行分类,得到对应于两个中文语句之间语义关系的预测结果。上述方法能够大幅降低预训练所需数据量保证较好的效果。

    基于拼音和BERT嵌入的中文语义匹配方法

    公开(公告)号:CN111414481A

    公开(公告)日:2020-07-14

    申请号:CN202010197034.X

    申请日:2020-03-19

    Abstract: 本发明提供了一种基于拼音和BERT嵌入的中文语义匹配方法,包括:构建包括数据预处理模块、BERT嵌入层模块、池化层模块和分类器模块的语义匹配模型,并对语义匹配模型进行训练,以利用训练好的语义匹配模型对待匹配语句进行中文语义匹配;数据预处理模块对待匹配的两个中文语句中的每个字进行拼音转换以及拼音切分,得到对应的拼音序列;BERT嵌入层模块根据所得拼音序列的上下文为其中每个拼音进行嵌入向量生成,得到嵌入向量序列;池化层模块将嵌入向量序列聚合成用于分类的一维语义表征向量;分类器模块根据一维语义表征向量进行分类,得到对应于两个中文语句之间语义关系的预测结果。上述方法能够大幅降低预训练所需数据量保证较好的效果。

Patent Agency Ranking