一种文本纠错模型的训练方法、应用方法、装置及设备

    公开(公告)号:CN115146621A

    公开(公告)日:2022-10-04

    申请号:CN202210499932.X

    申请日:2022-05-09

    发明人: 刘树林

    IPC分类号: G06F40/232 G06N3/04 G06N3/08

    摘要: 本申请实施例公开了一种文本纠错模型的训练方法、应用方法、装置及设备,相关实施例可应用于人工智能等各种场景,用于提高对错别字的识别精度。本申请实施例方法包括:通过文本纠错模型输出待纠错训练样本中每个文字对应的第一文本概率分布,基于每个文字对应的第一文本概率分布,计算待纠错训练样本对应的纠正损失值,对待纠错训练样本中除原始错别字以外的其他任一原始文字进行替换,以构造待纠错训练样本对应的噪声样本,获取噪声样本中每个文字对应的第二文本概率分布,基于第一文本概率分布和第二文本概率分布,计算待纠错训练样本对应的噪声损失值,基于纠正损失值以及噪声损失值对文本纠错模型进行参数调整,得到目标文本纠错模型。

    一种事件识别的方法、模型训练的方法、设备及存储介质

    公开(公告)号:CN110209807A

    公开(公告)日:2019-09-06

    申请号:CN201810716380.7

    申请日:2018-07-03

    发明人: 刘树林

    IPC分类号: G06F16/35 G06F17/27 G06N3/04

    摘要: 本申请公开了一种事件识别的方法,包括:获取用于识别目标事件所属类型的目标语句;基于事件识别模型处理目标语句,以得到目标事件的类型,其中,事件识别模型用于通过目标语句中的触发词和触发词的上下文词语确定目标事件的类型,触发词用于指示目标事件的备选类型,备选类型包括目标事件的类型;输出目标事件的类型。本申请技术方案由于在事件识别过程中结合触发词和触发词的上下文词语进行识别,采用这种词分类的方法进行事件识别,不仅可以提高识别效率,而且结合上下文词语进行识别,可以提高事件识别的准确度。

    一种事件识别模型的训练方法和装置

    公开(公告)号:CN109670174B

    公开(公告)日:2022-12-16

    申请号:CN201811535981.4

    申请日:2018-12-14

    发明人: 刘树林

    摘要: 本发明实施例公开了一种事件识别模型的训练方法和装置,用于实现不依赖触发词的事件识别模型训练,提高事件识别模型的训练效率。该方法包括:从训练数据库中获取到目标事件类型和第一文本样本,并将所述目标事件类型和所述第一文本样本输入到初始的事件识别模型中,所述事件识别模型中配置有注意力层;通过所述注意力层获取所述第一文本样本中每个词相对于所述目标事件类型的关注度信息;根据所述第一文本样本中每个词相对于所述目标事件类型的关注度信息,通过所述事件识别模型输出所述第一文本样本与所述目标事件类型的关联结果;根据所述事件识别模型输出的所述关联结果,采用预设的损失函数对所述事件识别模型进行训练。

    数据推送方法、装置、设备及存储介质

    公开(公告)号:CN113010777B

    公开(公告)日:2022-10-14

    申请号:CN202110248481.8

    申请日:2021-03-05

    发明人: 刘树林

    摘要: 本发明实施例涉及人工智能领域,公开了一种数据推送方法、装置、设备及存储介质,该方法包括:获取目标数据的关键描述信息以及目标用户的用户标签,目标数据的关键描述信息为描述目标数据的数据内容的文本信息,用户标签是通过对目标用户进行用户画像分析得到的;通过训练后的数据推送模型对目标数据的关键描述信息以及用户标签进行相关度计算处理,得到目标数据与目标用户的相关度,训练后的数据推送模型是基于训练样本对数据推送模型进行训练得到的,训练样本包括训练关键描述信息以及训练关键描述信息对应的训练标签;若相关度大于相关度阈值,则将目标数据推送给目标用户。采用本发明实施例,可提高个性化数据推送的精度。

    知识库词条分类方法和装置、模型训练方法和装置

    公开(公告)号:CN108304530B

    公开(公告)日:2022-03-18

    申请号:CN201810077103.6

    申请日:2018-01-26

    发明人: 刘树林

    摘要: 本申请涉及一种知识库词条分类方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取待分类的知识库词条;获取所述知识库词条所包括的多个词条版块的版块内容;转换所述版块内容为相应的词序列;将所述词序列输入已训练的多通道卷积网络模型中的对应卷积层通道;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列;通过所述多通道卷积网络模型中的分类层,根据多个所述卷积层通道所输出的向量进行分类,输出所述知识库词条所属的类别。本申请提供的方案可以提高知识库词条的分类准确率。

    事件触发词的识别方法、装置、电子设备

    公开(公告)号:CN110162771A

    公开(公告)日:2019-08-23

    申请号:CN201811397484.2

    申请日:2018-11-22

    发明人: 刘树林

    IPC分类号: G06F17/27

    摘要: 本发明涉及计算机技术领域,提供了一种事件触发词的识别方法、装置及电子设备,该事件触发词的识别方法包括:获取多个文本,对所述文本进行分词以形成词序列,并根据所述文本的事件类型确定所述文本的主题;基于所述主题,通过文本主题生成模型对所述文本进行处理以获得词汇-主题分布矩阵,其中所述词汇为所述词序列中的词汇,所述主题与所述事件类型相对应;根据所述词汇-主题分布矩阵确定目标文本中的事件触发词。本发明能够降低事件标注的成本,提高事件触发词的识别准确率和识别效率。

    同义文本识别及内容推荐方法、装置及电子设备

    公开(公告)号:CN111460808B

    公开(公告)日:2022-04-26

    申请号:CN202010206804.2

    申请日:2020-03-23

    发明人: 刘树林 蔡慧慧

    摘要: 本申请涉及人工智能技术领域,公开了一种同义文本识别及内容推荐方法、装置及电子设备,能够准确区分整体相似度较高但局部细节不同的两个文本,降低了同义文本的误判率。所述方法包括:基于第一待匹配文本和第二待匹配文本获得第一特征向量,第一特征向量表征第一待匹配文本和第二待匹配文本之间的深层语义特征的匹配度;基于第一待匹配文本和第二待匹配文中的特征词,获得第二特征向量,第二特征向量表征第一待匹配文本中的特征词和第二待匹配文本中的特征词之间的重合度;基于第一特征向量和第二特征向量融合后的特征向量,确定第一待匹配文本和第二待匹配文本是否为同义文本。

    同义文本识别及内容推荐方法、装置及电子设备

    公开(公告)号:CN111460808A

    公开(公告)日:2020-07-28

    申请号:CN202010206804.2

    申请日:2020-03-23

    发明人: 刘树林 蔡慧慧

    摘要: 本申请涉及人工智能技术领域,公开了一种同义文本识别及内容推荐方法、装置及电子设备,能够准确区分整体相似度较高但局部细节不同的两个文本,降低了同义文本的误判率。所述方法包括:基于第一待匹配文本和第二待匹配文本获得第一特征向量,第一特征向量表征第一待匹配文本和第二待匹配文本之间的深层语义特征的匹配度;基于第一待匹配文本和第二待匹配文中的特征词,获得第二特征向量,第二特征向量表征第一待匹配文本中的特征词和第二待匹配文本中的特征词之间的重合度;基于第一特征向量和第二特征向量融合后的特征向量,确定第一待匹配文本和第二待匹配文本是否为同义文本。

    一种标签提取方法及装置

    公开(公告)号:CN111222500A

    公开(公告)日:2020-06-02

    申请号:CN202010329789.0

    申请日:2020-04-24

    发明人: 刘树林

    摘要: 本申请涉及计算机技术领域,并涉及人工智能的计算机视觉、机器学习等技术,尤其涉及一种标签提取方法及装置,获取待提取视频和所述待提取视频的视频标题;提取所述视频标题的标题特征信息;提取所述待提取视频中的各个目标视频帧的图像特征信息,并分别对所述各个目标视频帧,根据目标视频帧的图像特征信息和所述标题特征信息进行目标检测,获得所述各个目标视频帧的标签;根据所述各个目标视频帧的标签,确定所述待提取视频的标签,这样,融合标题特征信息和图像特征信息进行标签提取,可以提高视频标签提取的准确性。

    知识库词条分类方法和装置、模型训练方法和装置

    公开(公告)号:CN108304530A

    公开(公告)日:2018-07-20

    申请号:CN201810077103.6

    申请日:2018-01-26

    发明人: 刘树林

    IPC分类号: G06F17/30 G06F17/27

    摘要: 本申请涉及一种知识库词条分类方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取待分类的知识库词条;获取所述知识库词条所包括的多个词条版块的版块内容;转换所述版块内容为相应的词序列;将所述词序列输入已训练的多通道卷积网络模型中的对应卷积层通道;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列;通过所述多通道卷积网络模型中的分类层,根据多个所述卷积层通道所输出的向量进行分类,输出所述知识库词条所属的类别。本申请提供的方案可以提高知识库词条的分类准确率。