一种基于规则的元器件规格型号自定义分词方法

    公开(公告)号:CN118132668A

    公开(公告)日:2024-06-04

    申请号:CN202311762167.7

    申请日:2023-12-20

    Abstract: 本发明公开了一种基于规则的元器件规格型号自定义分词方法,以准确地对元器件规格型号文本进行分词,解决现有分词方法对该领域文本处理存在的问题。该方法通过构建元器件规格语料库并分析文本特征,形成领域自定义词典,设计正则表达式规则进行规格符号识别及关键信息保留,确定合理的分词粒度和顺序,基于开源搜索引擎框架集成所构建的词典、规则和策略,实现一个针对元器件规格文本的自定义分词器。应用该分词器,可以有效地支持元器件信息管理系统中对规格文本的索引、检索和知识分析。该方法构建简单有效,可以显著提升对元器件规格文本处理的效果。

Patent Agency Ranking