-
公开(公告)号:CN112364641A
公开(公告)日:2021-02-12
申请号:CN202011259475.4
申请日:2020-11-12
申请人: 北京中科闻歌科技股份有限公司 , 深圳中科闻歌科技有限公司 , 北京中科闻歌智安科技有限公司
IPC分类号: G06F40/284 , G06F40/166
摘要: 本申请涉及一种面向文本审核的中文对抗样本生成方法及装置,其中方法包括:获取待处理语句信息;对待处理语句信息进行分词,得到多个词语;确定词语的第一重要性信息;获取各个词语对应的扰动词语;根据第一重要性信息,依次得到将待处理语句信息中各个词语替换为对应的扰动词语后的扰动语句信息;在确定扰动语句信息满足预设条件时,根据扰动语句信息得到对待处理语句信息攻击成功后的对抗样本。通过本实施例中的方法可以实现对待处理语句进行词语替换的方式得到对抗样本,进而可以增加用于对预测模型进行训练的样本的多样性,同时可以通过自动生成对抗样本,提升训练数据获取的便利性,提升模型训练的效率。
-
公开(公告)号:CN112329470A
公开(公告)日:2021-02-05
申请号:CN202011241374.4
申请日:2020-11-09
申请人: 北京中科闻歌科技股份有限公司 , 深圳中科闻歌科技有限公司 , 北京中科闻歌智安科技有限公司
IPC分类号: G06F40/295 , G06F40/226 , G06N3/08
摘要: 本申请提供了一种基于端到端模型训练的智能地址识别方法及装置,属于计算机技术领域。本申请通过获取训练数据集,所述训练数据集包括多个地址文本数据及每个所述地址文本数据对应的验证数据;针对每个地址文本数据,生成所述地址文本数据对应的字符嵌入向量序列;将所述字符嵌入向量序列输入至第一级子模型;将每一级子模型的输出数据与所述验证数据比较,得到多个误差;根据所述多个误差调整所述地址文本识别模型的参数,直至所述地址文本识别模型收敛时,训练结束。通过本申请,可以将多个级联的子模型产生的多个误差,作为依据以调整地址文本识别模型的参数,减少多个级联子模型的整体误差,避免了多个子模型之间的误差累积。
-
公开(公告)号:CN112329470B
公开(公告)日:2024-05-28
申请号:CN202011241374.4
申请日:2020-11-09
申请人: 北京中科闻歌科技股份有限公司 , 深圳中科闻歌科技有限公司 , 国科智安(北京)科技有限公司
IPC分类号: G06F40/295 , G06F40/226 , G06N3/08
摘要: 本申请提供了一种基于端到端模型训练的智能地址识别方法及装置,属于计算机技术领域。本申请通过获取训练数据集,所述训练数据集包括多个地址文本数据及每个所述地址文本数据对应的验证数据;针对每个地址文本数据,生成所述地址文本数据对应的字符嵌入向量序列;将所述字符嵌入向量序列输入至第一级子模型;将每一级子模型的输出数据与所述验证数据比较,得到多个误差;根据所述多个误差调整所述地址文本识别模型的参数,直至所述地址文本识别模型收敛时,训练结束。通过本申请,可以将多个级联的子模型产生的多个误差,作为依据以调整地址文本识别模型的参数,减少多个级联子模型的整体误差,避免了多个子模型之间的误差累积。
-
公开(公告)号:CN112364641B
公开(公告)日:2024-10-22
申请号:CN202011259475.4
申请日:2020-11-12
申请人: 北京中科闻歌科技股份有限公司 , 深圳中科闻歌科技有限公司 , 国科智安(北京)科技有限公司
IPC分类号: G06F40/284 , G06F40/166
摘要: 本申请涉及一种面向文本审核的中文对抗样本生成方法及装置,其中方法包括:获取待处理语句信息;对待处理语句信息进行分词,得到多个词语;确定词语的第一重要性信息;获取各个词语对应的扰动词语;根据第一重要性信息,依次得到将待处理语句信息中各个词语替换为对应的扰动词语后的扰动语句信息;在确定扰动语句信息满足预设条件时,根据扰动语句信息得到对待处理语句信息攻击成功后的对抗样本。通过本实施例中的方法可以实现对待处理语句进行词语替换的方式得到对抗样本,进而可以增加用于对预测模型进行训练的样本的多样性,同时可以通过自动生成对抗样本,提升训练数据获取的便利性,提升模型训练的效率。
-
公开(公告)号:CN113158656B
公开(公告)日:2024-05-14
申请号:CN202011561236.4
申请日:2020-12-25
申请人: 北京中科闻歌科技股份有限公司
IPC分类号: G06F40/279 , G06F40/30 , G06V30/40 , G06V30/18
摘要: 本发明实施例公开了一种讽刺内容识别方法、装置、电子设备以及存储介质。该方法包括:获取待识别的数据内容,并提取所述数据内容的文本内容和图像内容;提取所述图像内容的第一特征信息,其中,所述第一特征信息至少包括所述图像内容中的文本向量特征;提取所述文本内容的第二特征信息,其中,所述第二特征信息至少包括所述文本内容的表情符号特征;将所述图像内容的第一特征信息和所述文本内容的第二特征信息输入至预先训练的讽刺内容识别模型,得到所述数据内容的讽刺识别结果。通过本发明实施例公开的技术方案,实现了更加准确的识别到讽刺内容,更加精准的了解待识别的数据内容的表达含义。
-
公开(公告)号:CN113158656A
公开(公告)日:2021-07-23
申请号:CN202011561236.4
申请日:2020-12-25
申请人: 北京中科闻歌科技股份有限公司
IPC分类号: G06F40/279 , G06F40/30 , G06K9/00 , G06K9/46
摘要: 本发明实施例公开了一种讽刺内容识别方法、装置、电子设备以及存储介质。该方法包括:获取待识别的数据内容,并提取所述数据内容的文本内容和图像内容;提取所述图像内容的第一特征信息,其中,所述第一特征信息至少包括所述图像内容中的文本向量特征;提取所述文本内容的第二特征信息,其中,所述第二特征信息至少包括所述文本内容的表情符号特征;将所述图像内容的第一特征信息和所述文本内容的第二特征信息输入至预先训练的讽刺内容识别模型,得到所述数据内容的讽刺识别结果。通过本发明实施例公开的技术方案,实现了更加准确的识别到讽刺内容,更加精准的了解待识别的数据内容的表达含义。
-
公开(公告)号:CN112650867A
公开(公告)日:2021-04-13
申请号:CN202011561238.3
申请日:2020-12-25
申请人: 北京中科闻歌科技股份有限公司
IPC分类号: G06F16/535 , G06F16/583
摘要: 本发明实施例公开了一种图片匹配方法、装置、电子设备以及存储介质。该方法包括:获取目标文本,基于预先训练的特征提取模型提取所述目标文本的文本特征信息;将所述文本特征信息与预设图库中各图片的图片特征信息进行匹配,其中,所述各图片的图片特征信息基于所述预先训练的特征提取模型对各图片提取得到,所述特征提取模型包括文本特征提取子模型、图片特征提取子模型以及分别与所述文本特征提取子模型、所述图片特征提取子模型连接的联合特征提取子模型;将与所述文本特征信息相匹配的图片确定为所述目标文本的匹配图片。通过本发明实施例公开的技术方案,实现了文本自动配图,提升文本的观感质量,激发读者的阅读兴趣,提升读者的阅读体验。
-
公开(公告)号:CN112866586A
公开(公告)日:2021-05-28
申请号:CN202110003232.2
申请日:2021-01-04
申请人: 北京中科闻歌科技股份有限公司
IPC分类号: H04N5/265 , G10L13/04 , G10L13/047 , G10L21/10 , G10L25/57
摘要: 本发明实施例公开了一种视频合成方法、装置、设备及存储介质。获取的待合成文本可以是任意语种的文本,待合成视频可以是用户选择的包括任意主播形象的视频片段,根据获取的待合成文本自动生成音频流,基于待合成视频中的无音视频流生成视频特征和唇部特征,并根据音频流生成音频特征和口型特征,基于口型特征和唇部特征确定口唇映射关系,根据口唇映射关系生成口唇一致的视频序列,进一步地,根据融合后的视频序列,生成目标合成视频,使整个目标合成视频中的人脸和唇部动作保持一致,并使目标合成视频中的主播唇动保持自然一致,并生成符合用户意愿的目标合成视频,提高用户观看体验。
-
公开(公告)号:CN112308638A
公开(公告)日:2021-02-02
申请号:CN202011187087.X
申请日:2020-10-29
申请人: 北京中科闻歌科技股份有限公司
摘要: 本申请实施例提供一种虚开发票行为检测方法、装置、电子设备及存储介质,方法包括:确定目标纳税实体的涉税数据,涉税数据包含开票数据,从涉税数据中提取目标纳税实体的虚开发票行为特征向量,将虚开发票行为特征向量输入预先训练好的随机森林模型,以使随机森林模型输出目标纳税实体的虚开发票数据,若虚开发票数据满足预设条件,则确定目标纳税实体是虚开发票纳税实体。本方案充分考虑了涉税数据中蕴含的纳税实体的虚开发票行为特征,更加精细的刻画纳税实体的特点,采用预先训练好的随机森林模型,基于纳税实体的虚开发票行为特征对纳税实体进行虚开发票检测,避免了以往基于指标评价体系的方案中指标阈值难以科学合理确定的局限和不足。
-
公开(公告)号:CN112613293B
公开(公告)日:2024-05-24
申请号:CN202011593291.1
申请日:2020-12-29
申请人: 北京中科闻歌科技股份有限公司
IPC分类号: G06F40/194 , G06V30/19
摘要: 本发明实施例公开了一种摘要生成方法、装置、电子设备及存储介质,所述方法包括:获取摘要文本信息;分别确定预设图像集中至少一个图像与所述摘要文本信息的图文相似度;分别提取所述至少一个图像中的图像文本信息,并确定各所述图像的图像文本信息与所述摘要文本信息的文本相似度;基于各所述图像的图文相似度和文本相似度确定与所述摘要文本信息相匹配的摘要图像;基于所述摘要图像和所述摘要文本信息形成目标摘要。本发明实施例的技术方案实现了当用户阅读初始文本时,可以通过摘要图像直观的了解文本的大致内容,通过阅读摘要文本信息获知文本主旨内容,提高用户的阅读体验感。
-
-
-
-
-
-
-
-
-