-
公开(公告)号:CN118053451A
公开(公告)日:2024-05-17
申请号:CN202410447623.7
申请日:2024-04-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例涉及一种基于多模态大模型的模仿音频鉴别方法、装置和设备,应用于训练好的多模态大模型,多模态大模型包括音频编码器、线性对齐层、预训练的大语言模型;通过将待鉴别音频输入到音频编码器中,获得音频特征;将音频特征输入到线性对齐层,获得对齐到文本模态的音频特征;将鉴伪音频的文本指令和文本模态的音频特征进行拼接,获得拼接特征;将拼接特征输入到预训练的大语言模型中,输出音频鉴别结果和鉴别原因;音频鉴别结果为真,表示音频是被模仿对象的真实音频;音频鉴别结果为假,表示音频是模仿对象针对被模仿对象所进行的模仿音频;鉴别原因是指做出所述音频鉴别结果的依据信息;实现了模仿音频的精确、快速检测。
-
公开(公告)号:CN117453898B
公开(公告)日:2024-03-22
申请号:CN202311795864.2
申请日:2023-12-25
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F16/335 , G06F16/33 , G06F18/27 , G06N5/04 , G06N5/01 , G06N3/0455 , G06N3/0895 , G06N3/0985 , G06N3/084
Abstract: 本公开涉及一种基于思维链的跨模态问答的处理方法和装置,上述处理方法包括:获取目标问答场景下的语音问题和对应的上下文文本;基于预训练好的思维链生成模型,对上述语音问题和上述上下文文本进行跨模态学习,得到用于表示上述语音问题的解决思路的思维链;将上述上下文文本和上述思维链进行拼接,得到目标上下文文本;基于预训练好的答案生成模型,对上述语音问题和上述目标上下文文本进行跨模态学习,得到上述语音问题对应的答案。支持跨模态问答并能先学习生成思维链,学习对问题进行思考的过程,之后基于思维链学习到答案,不仅有助于提升答案的正确率,也能有效提升答案的可解释性。
-
公开(公告)号:CN117453898A
公开(公告)日:2024-01-26
申请号:CN202311795864.2
申请日:2023-12-25
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F16/335 , G06F16/33 , G06F18/27 , G06N5/04 , G06N5/01 , G06N3/0455 , G06N3/0895 , G06N3/0985 , G06N3/084
Abstract: 本公开涉及一种基于思维链的跨模态问答的处理方法和装置,上述处理方法包括:获取目标问答场景下的语音问题和对应的上下文文本;基于预训练好的思维链生成模型,对上述语音问题和上述上下文文本进行跨模态学习,得到用于表示上述语音问题的解决思路的思维链;将上述上下文文本和上述思维链进行拼接,得到目标上下文文本;基于预训练好的答案生成模型,对上述语音问题和上述目标上下文文本进行跨模态学习,得到上述语音问题对应的答案。支持跨模态问答并能先学习生成思维链,学习对问题进行思考的过程,之后基于思维链学习到答案,不仅有助于提升答案的正确率,也能有效提升答案的可解释性。
-
公开(公告)号:CN117351940A
公开(公告)日:2024-01-05
申请号:CN202311655426.6
申请日:2023-12-05
Applicant: 中国科学院自动化研究所
IPC: G10L15/01 , G10L15/06 , G10L15/16 , G10L15/183
Abstract: 本发明涉及一种基于语音大模型的合成语音检测方法及装置,基于语音大模型的合成语音检测方法包括:对每一语音合成算法对应的样本语音进行多鉴别任务的标签标记,构建鉴别任务序列;遍历每一语音合成算法,获取该语音合成算法对应的样本语音的梅尔谱,输入基于前一语音合成算法对应的语音训练模型的编码器,得到隐变量;将隐变量及鉴别任务序列输入基于前一语音合成算法对应的语音训练模型的解码器,获取预测鉴别值;依据预测鉴别值及实际鉴别值,对前一语音合成算法对应的语音训练模型的模型参数值矩阵进行梯度方向优化,在所有合成语音算法遍历完毕后,得到语音大模型。可以提升合成语音检测效率。
-
公开(公告)号:CN116364055A
公开(公告)日:2023-06-30
申请号:CN202310634393.0
申请日:2023-05-31
Applicant: 中国科学院自动化研究所
IPC: G10L13/027 , G10L13/08 , G10L25/30
Abstract: 本发明实施例涉及一种基于预训练语言模型的语音生成方法、装置、设备及介质,属于语音合成领域,通过基于第一预训练语言模型对待生成语音的目标文本进行编码,获得语义令牌序列;基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码,获得风格令牌序列;基于第三预训练语言模型对所述语义令牌序列和所述风格令牌序列进行自回归,获得声学令牌序列;基于训练好的神经编解码器对所述声学令牌序列进行解码,生成所述目标文本对应的目标语音;通过各预训练语言模型生成语音,并通过自然语言便捷、精确的控制文本所要生成的语音风格,增加了语音风格控制的多样化,提高语音生成质量。
-
公开(公告)号:CN115862656B
公开(公告)日:2023-06-02
申请号:CN202310054459.9
申请日:2023-02-03
Applicant: 中国科学院自动化研究所
IPC: G10L21/0224 , G10L21/0232 , G10L19/26 , H04R1/08
Abstract: 本公开涉及一种骨传麦克风语音增强方法及装置、设备及存储介质,所述方法包括:获取两种频域信号,并根据预设的截止频率,对所述两种频域信号分别进行截取,得到两种截取后频域信号;对所述两种截取后频域信号分别进行半波整流,得到两种半波整流后时域信号;按照预设的中间频带,根据所述两种半波整流后时域信号确定融合因子;根据融合因子对所述两种截取后频域信号进行融合,得到骨传麦克风语音增强语音,根据预设的截止频率作为滤波器组,先对两种频域信号进行截取和融合,并通过半波整流对整体信号进行修正,实现对噪声的有效抑制,能够保留骨传导麦克风清晰的低频信号,同时对其缺失的中、高频信息进行补充,得到感知质量更高的音频信号。
-
公开(公告)号:CN115083422B
公开(公告)日:2022-11-15
申请号:CN202210859678.X
申请日:2022-07-21
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本公开涉及一种语音溯源取证方法及装置、设备及存储介质,所述方法包括:本提取待测试语音的至少两种不同的声学特征;对提取的待测试语音的至少两种不同的声学特征进行融合,得到第一融合声学特征;基于预先训练的语音溯源取证模型,从所述第一融合声学特征中提取帧级别的算法指纹特征,对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法;将预测出的待测试语音的生成算法作为语音溯源取证结果,通过提取算法指纹,不仅可以判断音频的真实性,而且可以进一步溯源取证,得到虚假音频的生成来源。
-
公开(公告)号:CN115083423A
公开(公告)日:2022-09-20
申请号:CN202210861979.6
申请日:2022-07-21
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本公开涉及一种语音鉴别的数据处理方法和装置,涉及语音识别技术、人工智能和计算机技术领域,上述数据处理方法包括:获取待鉴别音频;对上述待鉴别音频进行特征提取,得到初始声学特征;对上述初始声学特征进行量化处理,得到量化声学特征;将上述量化声学特征输入至目标语音鉴别模型中进行处理,输出得到上述待鉴别音频的真伪结果,上述目标语音鉴别模型为参数预训练好且经过量化后的语音鉴别模型。在确保语音真伪鉴别准确率的基础上能够提升语音真伪鉴别的鉴别速度,提升数据处理的效率。
-
公开(公告)号:CN114168804B
公开(公告)日:2022-06-10
申请号:CN202111550920.7
申请日:2021-12-17
Applicant: 中国科学院自动化研究所
IPC: G06F16/901 , G06F16/903 , G06F16/9535 , G06N3/04 , G06N3/08
Abstract: 本发明提出一种基于异质子图神经网络的相似信息检索方法和系统。其中,方法包括:首先,将业务场景数据面向异质图进行图结构化数据,即构建异质图;其次,设计了一种子图范式,据此设计异质子图神经网络,建模和学习中心节点的邻域信息,并在不需要交互记录等标签的低资源情况下进行模型训练,从而得到节点的嵌入表示;最后,设计了基于局部敏感哈希的快速相似度计算模块来实现对相似内容检索这一功能的在线服务。本发明能够解决了低资源场景下相似信息检索这一业务需求。
-
公开(公告)号:CN114297394A
公开(公告)日:2022-04-08
申请号:CN202210238820.9
申请日:2022-03-11
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种对文本中的事件论元进行抽取的方法和电子设备,该方法包括:对待处理文本中包含的事件类型进行检测,得到目标事件类型;根据该目标事件类型及对应的目标论元角色的先验关联信息,构造得到论元抽取问题;将待处理文本和论元抽取问题进行拼接,得到目标文本;将该目标文本的表示向量输入至机器阅读理解模型中,该模型包括两层依序设置的分类器,第一层分类器同步对该目标文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有答案指示标签的位置预测结果;第二层分类器对开始位置和结束位置进行配对组合后的预测实体是否为事件论元进行预测,得到答案预测结果;根据该答案预测结果和对应的标签,输出事件论元。
-
-
-
-
-
-
-
-
-