一种基于多阶段迁移学习策略综合的众包文本集成方法

    公开(公告)号:CN114662659A

    公开(公告)日:2022-06-24

    申请号:CN202210237867.3

    申请日:2022-03-11

    Inventor: 荣欢 于信 马廷淮

    Abstract: 本发明提供一种基于多阶段迁移学习策略综合的众包文本集成方法,具体为1、构建迁移式生成型众包文本集成模型TTGCIF;2、获得源域文本数据集和目标域文本数据集的语义原型;3、对语义原型进行词嵌入处理;4、根据最大均值差异做数据分布对齐;5、对TTGCIF进行语义原型转导模型训练;6、将源域文本数据集处理为训练任务集;7、将训练任务集输入到TTGCIF中进行领域快速适应模型训练;8、将部分目标域文本数据集输入到TTGCIF中进行模型微调训练。通过以上过程,实现文本集成。本发明能够摒弃传统方法中对数据标签的需求,减少人力物力的浪费,对数据稀缺场景下进行众包文本集成的有着极大的促进作用。

    一种基于多阶段迁移学习策略综合的众包文本集成方法

    公开(公告)号:CN114662659B

    公开(公告)日:2022-09-16

    申请号:CN202210237867.3

    申请日:2022-03-11

    Inventor: 荣欢 于信 马廷淮

    Abstract: 本发明提供一种基于多阶段迁移学习策略综合的众包文本集成方法,具体为1、构建迁移式生成型众包文本集成模型TTGCIF;2、获得源域文本数据集和目标域文本数据集的语义原型;3、对语义原型进行词嵌入处理;4、根据最大均值差异做数据分布对齐;5、对TTGCIF进行语义原型转导模型训练;6、将源域文本数据集处理为训练任务集;7、将训练任务集输入到TTGCIF中进行领域快速适应模型训练;8、将部分目标域文本数据集输入到TTGCIF中进行模型微调训练。通过以上过程,实现文本集成。本发明能够摒弃传统方法中对数据标签的需求,减少人力物力的浪费,对数据稀缺场景下进行众包文本集成的有着极大的促进作用。

Patent Agency Ranking