-
公开(公告)号:CN114254638A
公开(公告)日:2022-03-29
申请号:CN202111580309.9
申请日:2021-12-22
Applicant: 科大讯飞股份有限公司
IPC: G06F40/289 , G06V30/148 , G06F16/35
Abstract: 本发明提供一种天城文分词和识别方法、装置、电子设备和存储介质,其中分词方法包括:获取待分词的天城文文本的字符序列;基于所述字符序列中当前字符的类型以及所述当前字符之后的字符的类型,对所述当前字符及其之后的字符进行分词,并将分词所得子词中的最尾字符在所述字符序列中的下个字符更新为当前字符进行分词,直至分词完成。本发明实施例提供的天城文分词和识别方法、装置、电子设备和存储介质,在分析整理了基础单元结构的基础上,提出了适合天城文语言结构特性的分词规则,既考虑当前字符的类型,也考虑当前字符之后的字符的类型,由此确定字符序列中一段字符的语言结构,据此进行分词。