-
公开(公告)号:CN113761911A
公开(公告)日:2021-12-07
申请号:CN202110283769.9
申请日:2021-03-17
Applicant: 中科天玑数据科技股份有限公司
IPC: G06F40/289 , G06F40/284 , G06F40/117 , G06K9/62
Abstract: 本发明公开了一种基于弱监督的领域文本标注方法,包括以下步骤:S1产品语料预处理过程;S2WCE‑S‑LDA模型训练;S3标注数据。有益效果:本技术提出了字词联合向量改进seeded‑lda方法实现对语料的自动标注。本发明公布了一种针对中文评论文本自动标注框架。设计一种自适应的考虑文本向量改进seeded‑lda模型的文本自动标注方法。通过本方法可以提高文本训练语料的标注速度以及规模。进而为训练模型提供更多的训练资源。本发明的目的在于提供一种面向规模语料评论的自动标注方法与框架,快速生成分类训练样本,降低人工参与,提高工作效率。同时保证一定的标注准确率,为快速分析大规模语料提供有力帮助。