发明授权
- 专利标题: 关键词语料标注训练提取系统
-
申请号: CN201910455064.3申请日: 2019-05-29
-
公开(公告)号: CN110298033B公开(公告)日: 2022-07-08
- 发明人: 崔莹 , 代翔 , 黄细凤 , 王侃 , 杨拓 , 余博 , 朱宇涛 , 李超 , 李源源
- 申请人: 西南电子技术研究所(中国电子科技集团公司第十研究所)
- 申请人地址: 四川省成都市金牛区茶店子东街48号
- 专利权人: 西南电子技术研究所(中国电子科技集团公司第十研究所)
- 当前专利权人: 西南电子技术研究所(中国电子科技集团公司第十研究所)
- 当前专利权人地址: 四川省成都市金牛区茶店子东街48号
- 代理机构: 成飞(集团)公司专利中心
- 代理商 郭纯武
- 主分类号: G06F40/289
- IPC分类号: G06F40/289 ; G06F40/211 ; G06K9/62
摘要:
本发明公开的一种关键词语料标注训练提取工具,旨在提供一种可降低人工标注过程繁复度,并能提高海量关键词语料标注效率和准确率的标注训练工具。本发明通过下述技术方案予以实现:关键词语料标注准备模块对不同来源的海量语料数据进行区分,半自动化语料关键词标注模块创建关键词标注任务,自主选择适配算法并开展基于算法模型的自动标注,通过集成CHI、LDA、TEXTRANK、TFIDF中至少一种关键词抽取算法,对待标注文本语料数据进行预标注处理,并对多种算法标注结果进行融合,当标注任务完成后,反馈式关键词标注模型学习训练模块对关键词标注算法模型进行训练;关键词标注模型效果评估模块对模型指标量化标注效果进行自动评估。
公开/授权文献
- CN110298033A 关键词语料标注训练提取工具 公开/授权日:2019-10-01