使用机器训练词条频率加权因子的产生密集嵌入向量的编码器

    公开(公告)号:CN113661487A

    公开(公告)日:2021-11-16

    申请号:CN202080024993.X

    申请日:2020-02-03

    Abstract: 本文中描述了一种用于生成提供输入文本的分布表示的密集嵌入向量的计算机实现的技术。在一种实现中,该技术包括:生成维度为g的输入词条频率(TF)向量,该输入TF向量包括与输入文本的实例中的词条的出现频率相关的频率信息;使用TF修改通过相应机器训练加权因子来修改输入TF向量中的词条特定频率信息,以产生维度为g的中间向量;使用投影组件将维度为g的中间向量投影到维度为k的嵌入向量中,其中k小于g。TF修改组件和投影组件都可以使用相应机器训练神经网络。应用组件可以基于嵌入向量来执行基于取回的功能、基于识别的功能、基于推荐的功能、基于分类的功能等中的任何功能。

Patent Agency Ranking