一种公文特征提取方法、装置、设备和介质

    公开(公告)号:CN112686012A

    公开(公告)日:2021-04-20

    申请号:CN202011253863.1

    申请日:2020-11-11

    Abstract: 本发明公开了一种公文特征提取方法,包括:公文提取模板定义过程和公文特征提取过程;通过可扩展标记语言自定义公文提取模板,所述公文提取模板包括:附件提取标识标签、拆分句子规则标签以及至少一个提取特征字段标签;然后根据公文提取模板中的附件提取标识标签,获取公文正文或公文正文及附件作为待提取公文,将待提取公文转化为用可扩展标记语言格式内容;根据拆分句子规则标签将待提取公文进行句子拆分;根据提取特征字段标签逐句进行特征字段提取并输出。本发明提供的一种公文特征提取方法、装置、设备和介质,通过定义公文特征提取模版,以搭积木的方式实现对非结构化公文的特征提取,大大简化对公文特征提取的难度。

Patent Agency Ranking