发明公开
- 专利标题: 基于多模态信息的变形词生成模型的训练方法及装置
-
申请号: CN202311618449.X申请日: 2023-11-30
-
公开(公告)号: CN117312864A公开(公告)日: 2023-12-29
- 发明人: 时磊 , 吕东 , 王立强 , 李艺涛 , 段东圣 , 余翠玲 , 鲁睿 , 孙旷怡 , 段运强 , 王子涵 , 王媛媛 , 佟玲玲 , 李鹏霄 , 党中恺 , 闫超阳
- 申请人: 国家计算机网络与信息安全管理中心
- 申请人地址: 北京市朝阳区裕民路甲3号
- 专利权人: 国家计算机网络与信息安全管理中心
- 当前专利权人: 国家计算机网络与信息安全管理中心
- 当前专利权人地址: 北京市朝阳区裕民路甲3号
- 代理机构: 北京路浩知识产权代理有限公司
- 代理商 毛宏宝
- 主分类号: G06F18/214
- IPC分类号: G06F18/214 ; G06F18/10 ; G06F18/25 ; G06F40/284 ; G06N3/08 ; G06N3/0455 ; G06N3/0475
摘要:
本发明提供一种基于多模态信息的变形词生成模型的训练方法及装置,涉及语言生成技术领域,方法包括:获取变形词语料库,变形词语料库包括的不同初始样本由多模态信息组成;对变形词语料库中不同初始样本的不同类型的语料信息,采用对应类型的预处理方式分别进行预处理,生成大规模语料库;大规模语料库中每个语料样本包括多个语料信息的权重及特征向量,不同的语料信息的权重用于表征不同的语料信息在对应样本中不同的贡献程度;基于大规模语料库中预设数量的语料样本包括的多个语料信息的权重及特征向量,对初始模型进行训练,得到基于多模态信息的变形词生成模型。本发明能够提高变形词生成的精度和准确率。