- 专利标题: 相似样本语料的生成方法、装置、电子设备及存储介质
-
申请号: CN202111622743.9申请日: 2021-12-28
-
公开(公告)号: CN114357974B公开(公告)日: 2022-09-23
- 发明人: 张阳 , 漆骏锋 , 胡伯良
- 申请人: 北京海泰方圆科技股份有限公司
- 申请人地址: 北京市海淀区东北旺西路8号中关村软件园9号楼国际软件大厦E座一层、二层
- 专利权人: 北京海泰方圆科技股份有限公司
- 当前专利权人: 北京海泰方圆科技股份有限公司
- 当前专利权人地址: 北京市海淀区东北旺西路8号中关村软件园9号楼国际软件大厦E座一层、二层
- 代理机构: 北京同达信恒知识产权代理有限公司
- 代理商 刘亚威
- 主分类号: G06F40/211
- IPC分类号: G06F40/211 ; G06F40/30 ; G06K9/62 ; G06N3/04 ; G06N3/08
摘要:
本申请涉及数据处理领域,尤其涉及一种相似样本语料的生成方法、装置、电子设备及存储介质,解决相似样本语料的生成过程复杂,以及难以生成有效相似样本语料的问题,方法为:获取目标领域的一个第一种子语句,以及其他领域中的各个第二种子语句,将第一种子语句输入添加噪音扰动的各个预训练模型,获得各个第一融合结果,以及获取根据各个第二种子语句确定的各个第二融合结果,再根据所述各个第一融合结果,生成各组相似正样本语料,以及根据所述各个第一融合结果和各个第二融合结果,生成各组相似负样本语料。这样,不仅简化了相似样本语料的生成过程,还提高了相似样本语料的生成效率,而且能够生成有效的相似样本语料。
公开/授权文献
- CN114357974A 相似样本语料的生成方法、装置、电子设备及存储介质 公开/授权日:2022-04-15