一种基于融合模型的中文地址识别方法

    公开(公告)号:CN116911305A

    公开(公告)日:2023-10-20

    申请号:CN202311176478.5

    申请日:2023-09-13

    发明人: 席娟辉 傅瑞明

    摘要: 本发明公开了一种基于融合模型的中文地址识别方法,首先收集包括中文地址的非结构化文本数据,并进行预处理,形成数据集,之后构建多个识别模型,并数据集进行训练,基于训练后的识别模型分别对输入的文本数据进行中文地址识别;随后构建文本评分体系,并基于文本评分对多个模型的输出结果进行评估,最后基于评估结果对识别结果进行融合,得到最终的中文地址识别结果。本发明通过机器学习和深度学习,构建多个优化的模型,以应对中文地址的复杂性和多样性,这些模型能够处理地址中常见的标记噪声,例如标点符号、省略词和错误的分词,从而提高识别的准确性,且能够有效处理长文本地址,提高识别的效率和速度。