古籍文本断句方法与装置、古籍文本断句模型训练方法

    公开(公告)号:CN115577680B

    公开(公告)日:2023-03-10

    申请号:CN202211567901.X

    申请日:2022-12-08

    Abstract: 本发明公开了一种古籍文本断句方法与装置、古籍文本断句模型训练方法,上述古籍文本断句方法包括:将预处理古籍文本输入语言模型,以便语言模型对预处理古籍文本进行初编码后输出初编码字向量;基于初编码字向量、原始古籍文本中汉字的字型结构特征对应的字符表征向量,获得融合特征向量;将融合特征向量输入风格化编码网络,以便通过风格化编码网络对融合特征向量进行古文风格化的特征转换后输出风格化特征向量;对风格化特征向量进行头尾语义特征提取和双仿射注意力机制处理后得到特征结果矩阵;基于对特征结果矩阵进行解码处理后得到的解码结果,对预处理古籍文本或原始古籍文本进行断句处理并添加标点符号,以输出目标古籍文本。

Patent Agency Ranking