一种实时的中文拼写纠错样本生成方法

    公开(公告)号:CN118673902A

    公开(公告)日:2024-09-20

    申请号:CN202410715842.9

    申请日:2024-06-04

    Abstract: 本发明公开了一种实时的中文拼写纠错样本生成方法。该方法作用于模型训练时,基于已有的文本,通过字符替换的方式,实时构建出多种不同的样本对,因此该方法能够极大的丰富训练样本。同时为保证生成样本的质量,首先会对已有样本进行预处理,标记部分内容旨在避免无意义的替换。其次在替换过程中保证大部分基于相似字符和少量的随机替换,进而贴合实际场景。该方法极大的减少了人工参与的过程,但仍可保证生成样本的高质量和多样性,即使在数据资源有限的情况下,仍能够尽可能地挖掘已有数据的潜力,构建更丰富的训练样本用于模型训练。

    一种基于Transformer的物品-行为跨序列推荐方法

    公开(公告)号:CN116644226A

    公开(公告)日:2023-08-25

    申请号:CN202310421060.X

    申请日:2023-04-19

    Abstract: 本发明请求保护一种基于Transformer的物品‑行为跨序列推荐系统,涉及人工智能和推荐系统领域,包括以下步骤:1)物品‑行为序列建模,获取用户交互物品序列和用户交互行为序列;2)基于Transformer进行序列推荐系统建模,通过嵌入表示查询将独热的稀疏的物品转化为稠密的嵌入表示向量,根据序列级的嵌入表示计算出各个物品推荐概率并将推荐概率最高的物品推荐给用户;3)基于编码器进行序列表示建模,将两种序列建模为单一序列并对序列的嵌入表示进行学习;4)基于自注意力机制进行物品‑行为跨序列融合建模。本发明在多序列推荐系统构建、序列信息建模、多序列融合等方面的研究具有重要指导意义。

    一种基于预训练语言模型构建的双模块中文拼写纠错方法

    公开(公告)号:CN118673901A

    公开(公告)日:2024-09-20

    申请号:CN202410715839.7

    申请日:2024-06-04

    Abstract: 本发明公开了一种基于预训练语言模型构建的双模块中文拼写纠错方法,通过分离和重构预训练语言模型的内部结构,分别构建了拼写错误检测模块和拼写错误纠错模块。前者通过编码文本的向量表示,计算文本中每一字符的置信度,进而确定错别字的位置。后者结合检测结果进行有针对性的修改,通过提取纠错嵌入向量中的文本特征计算纠错策略的合理性分数,并按照得分最高的策略进行修改,以得到纠错后的文本。本申请具备更快的响应速度和更高的纠错准确率,可应用于中文文本编辑,中文语音识别和光学中文字符识别场景中。

Patent Agency Ranking