-
公开(公告)号:CN117789233A
公开(公告)日:2024-03-29
申请号:CN202410132267.X
申请日:2024-01-30
Applicant: 科大讯飞股份有限公司
IPC: G06V30/413 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/0442 , G06N3/08
Abstract: 本申请实施例公开了一种文本识别方法、装置、设备及存储介质,对图片进行编码,得到编码特征后,对编码特征进行解码时,按文本片段进行解码,且每个文本片段的解码过程引入了该文本片段在图片中的位置,也就是说,本申请在对编码特征解码过程中不仅对文本进行解码,还对文本片段在图片中的位置进行解码,且每个文本片段是基于先解码得到的该文本片段在图片中的位置解码得到的,因此,文本片段的解码过程参考了更多的上下文信息,从而提高文本识别准确率。
-
公开(公告)号:CN119648874A
公开(公告)日:2025-03-18
申请号:CN202411486623.4
申请日:2024-10-23
Applicant: 科大讯飞股份有限公司
Abstract: 本说明书实施例提供了一种动作合成方法,该方法通过确定输入视频相应关键点序列;然后基于关键点序列执行加噪处理;并在对噪声序列进行去噪处理的过程中,将噪声序列和特征信息作为条件引导扩散概率模型执行分段训练进程,其第一阶段基于音频特征进行,其第二阶段在第一阶段的隐空间中基于语义特征进行;该训练后的扩散概率模型可以用于合成对象动作。应用上述训练得到的扩散概率模型能够实现多样性的动作合成过程,由于在训练进程中第二阶段在第一阶段隐空间继续生成稳定的序列结构,在音频特征的基础上,细化描述了语义特征,提高了动作合成的准确性。
-