音频转文本方法、装置、电子设备及可读存储介质

    公开(公告)号:CN118800236A

    公开(公告)日:2024-10-18

    申请号:CN202311605192.4

    申请日:2023-11-28

    Abstract: 本发明提供一种音频转文本方法、装置、电子设备及可读存储介质,属于人工智能技术领域,包括:获取待识别音频相关的梅尔频谱输入至音频转文本模型中的音频编码器,获取多模态音频特征;将多模态音频特征输入至扩散模型,得到其输出的文本编码特征;再将文本编码特征输入至音频解码器,获取该待识别音频对应的识别文本。本发明设计并训练了一种新的音频转文本模型,利用音频编码器提取出待识别的音频相关的多模态音频特征,然后利用扩散模型的多模态空间中关联的多模态音频特征与多模态文本编码特征之间的强相关性,生成文本编码特征,在利用音频解码器进行解码得到识别文本,泛化性强、鲁棒性更强。

    虚假新闻检测方法及装置
    3.
    发明公开

    公开(公告)号:CN118798183A

    公开(公告)日:2024-10-18

    申请号:CN202311575497.5

    申请日:2023-11-23

    Abstract: 本发明提供一种虚假新闻检测方法及装置,其方法包括:提取待检测新闻中文本信息的文本特征、视觉信息的视觉特征和实体信息的实体特征,将文本特征、视觉特征和实体特征进行融合得到待检测新闻的融合特征;检索与实体信息相关的外部知识,根据外部知识和待检测新闻对待检测新闻进行分类,得到待检测新闻的第一分类结果,第一分类结果包括真实新闻和虚假新闻;根据融合特征和第一分类结果对待检测新闻进行分类,得到待检测新闻的第二分类结果,第二分类结果包括真实新闻和虚假新闻。本发明通过结合待检测新闻的文本信息、视觉信息、实体信息以及外部知识,实现一种准确率高的多模态虚假新闻检测方法。

Patent Agency Ranking