基于自然语言推断分类数据集的降噪装置及方法

    公开(公告)号:CN113822330A

    公开(公告)日:2021-12-21

    申请号:CN202110918801.6

    申请日:2021-08-11

    Applicant: 东华大学

    Inventor: 徐波 赵象三 宋晖

    Abstract: 本发明公开了一种基于自然语言推断分类数据集的降噪装置及方法。本发明的数据格式转换模块通过对关系分类数据集中的各类特征构造模板,将关系分类数据集中的各个三元组转换成自然语言推断中的假设,将对应的文本语料转换成自然语言推断中的前提;若原始数据集中能划分出高质量的标注数据,直接使用该数据集作为训练集使用监督学习训练自然语言推断模型,若当前数据集噪声比例较大且人工标注代价高昂,通过当前模型在验证集上的降噪效果作为“反馈”以强化学习的方法训练自然语言推断模型的参数;所述数据集降噪模板通过训练好的自然语言推断模型对远程监督得到的关系分类数据集进行评估,按照得分选取置信度高的数据集作为降噪后的数据集。

Patent Agency Ranking