音频转文本方法、装置、电子设备及可读存储介质

    公开(公告)号:CN118800236A

    公开(公告)日:2024-10-18

    申请号:CN202311605192.4

    申请日:2023-11-28

    Abstract: 本发明提供一种音频转文本方法、装置、电子设备及可读存储介质,属于人工智能技术领域,包括:获取待识别音频相关的梅尔频谱输入至音频转文本模型中的音频编码器,获取多模态音频特征;将多模态音频特征输入至扩散模型,得到其输出的文本编码特征;再将文本编码特征输入至音频解码器,获取该待识别音频对应的识别文本。本发明设计并训练了一种新的音频转文本模型,利用音频编码器提取出待识别的音频相关的多模态音频特征,然后利用扩散模型的多模态空间中关联的多模态音频特征与多模态文本编码特征之间的强相关性,生成文本编码特征,在利用音频解码器进行解码得到识别文本,泛化性强、鲁棒性更强。

    文件传输方法、装置、设备及计算机存储介质

    公开(公告)号:CN118802888A

    公开(公告)日:2024-10-18

    申请号:CN202311066892.0

    申请日:2023-08-22

    Abstract: 本发明实施例提供了一种文件传输方法、装置、设备及计算机存储介质,其中方法包括:接收业务后端发送的第一请求,所述第一请求用于生成第一格式令牌;基于所述第一请求生成所述第一格式令牌;向所述业务后端发送所述第一格式令牌,以使所述业务后端将所述第一格式令牌发送至业务前端;接收所述业务前端基于所述第一格式令牌发送的目标文件;基于所述目标文件,向所述业务后端发送回调请求,所述回调请求用于校验OSS接收到的所述目标文件与所述业务前端的待传输的目标文件是否一致;基于所述业务后端根据所述回调请求反馈的校验结果,对所述目标文件进行处理。本申请实施例能够提高业务前端上传文件方式的安全性。

Patent Agency Ranking