-
公开(公告)号:CN1346126A
公开(公告)日:2002-04-24
申请号:CN00124972.X
申请日:2000-09-27
Applicant: 中国科学院自动化研究所
IPC: G10L15/08
Abstract: 一种带调三音子模型及训练方法提出了一种新的包含声调信息的声学模型及其相应的训练方法,该方法的最基本特征是不对声调进行直接的分类和建模,而是把本体及其左右声调当作一种上下文语境因素进行考虑,根据语境对包含有声调信息的声学特征的影响程度来确认是否需要对模型进行细分类,从而真正根据连续语音中的区分信息对声调和声韵母等上下文语境进行建模。
-
公开(公告)号:CN119446125B
公开(公告)日:2025-04-29
申请号:CN202510027286.0
申请日:2025-01-08
Applicant: 中国科学院自动化研究所
IPC: G10L15/02 , G10L15/06 , G10L15/183 , G10L15/16 , G10L15/26
Abstract: 本发明提供一种基于多配置分块上下文转换器模型的语音识别方法及装置,属于人工智能技术领域,该方法包括:获取待识别语音的特征序列;将特征序列输入至经过训练的语音识别模型,利用语音识别模型对待识别语音进行语音识别,得到语音识别模型输出的识别结果;语音识别模型为多配置分块上下文转换器MCC‑Transformer模型,MCC‑Transformer模型是在转换器模型的基础上,在编码器中引入一个语音MCC‑Transformer块构建而成,语音MCC‑Transformer块由多个MCC‑Transformer块堆叠而成。本发明在编码器中引入一个由多个MCC‑Transformer块堆叠而成的语音MCC‑Transformer块,提高了语音识别的准确率。
-
公开(公告)号:CN119649082A
公开(公告)日:2025-03-18
申请号:CN202411478479.X
申请日:2024-10-22
Applicant: 中国科学院自动化研究所
IPC: G06V10/764 , G06V10/82 , G06N3/049 , G06N3/084 , G06N3/0895
Abstract: 本发明提供一种基于时域多样性脉冲神经网络的图像分类方法及装置,包括:获取目标图像;将目标图像输入图像分类模型,得到图像分类模型输出的分类结果;其中,图像分类模型基于带有分类标签的样本图像训练得到,图像分类模型包括编码器和解码器,编码器采用时域多样性脉冲神经网络,时域多样性脉冲神经网络中的部分脉冲神经元为周期性开关时间动态的脉冲神经元。采用上述技术方案,解决了现有技术中脉冲神经网络在处理图像分类任务时,推理开销大的问题。
-
公开(公告)号:CN116312502B
公开(公告)日:2025-02-11
申请号:CN202211735842.2
申请日:2022-12-30
Applicant: 中国科学院自动化研究所
IPC: G10L15/183 , G06F18/214 , G06F18/24 , G06F18/25 , G06N3/0464 , G10L15/14 , G10L15/16 , G10L15/06 , G10L19/24
Abstract: 本发明提供一种基于顺序采样分块机制的端到端流式语音识别方法及装置,包括:针对初始语音识别模型中的每个特征提取网络,将前一个特征提取网络中SSC‑MHSA模块输出的多个语音样本的第二声学特征信息,输入特征提取网络中C‑MHSA模块,得到多个语音样本的第一声学特征信息;将多个语音样本的第一声学特征信息,输入特征提取网络的SSC‑MHSA模块,得到多个语音样本的第二声学特征信息;将初始语音识别模型中最后一个特征提取网络输出的多个语音样本的第二声学特征信息,输入初始语音识别模型中的解码器网络,得到多个语音样本的预测信息;基于多个语音样本的预测信息和标签信息,更新初始语音识别模型的模型参数,以得到性能较好的流式语音识别模型。
-
公开(公告)号:CN119360180A
公开(公告)日:2025-01-24
申请号:CN202411143802.8
申请日:2024-08-20
Applicant: 中国科学院自动化研究所
IPC: G06V10/82 , G06V10/77 , G06V10/764 , G06N3/0464
Abstract: 本发明提供一种基于脉冲驱动的目标检测模型的应用方法,所述目标检测模型为脉冲驱动目标检测模型,方法包括:基于YOLOv8模型构建目标检测模型,所述目标检测模型的网络架构中,采用两种不同的SNN特征提取模块替换YOLOv8模型中的C2F特征提取模块;获取待处理图像,将待处理图像中的静态图像数据复制多份输入所述目标检测模型中,且将待处理图像中的神经形态数据按帧聚合输入所述目标检测模型中;应用所述目标检测模型分别对所述静态图像数据和所述神经形态数据进行处理,以得到所述待处理图像的目标检测结果。通过上述方法,解决在脉冲神经网络领域中,由于目标检测模型性能较低,难以被直接应用于实际的图像检测场景的问题。
-
公开(公告)号:CN118228774A
公开(公告)日:2024-06-21
申请号:CN202410281281.6
申请日:2024-03-12
Applicant: 中国科学院自动化研究所
IPC: G06N3/0464 , G06N3/063 , G06F17/16 , G06F17/15
Abstract: 本发明提供一种基于脉冲神经网络的残差网络优化方法、装置及电子设备。该方法包括:在每个卷积层的输入端设置有LIF神经元的激活函数的情况下,对卷积模块的输出矩阵和/或跳跃连接模块的输出矩阵进行脉冲化处理,得到第一脉冲矩阵;将第一脉冲矩阵转换为第一膜电位矩阵;将第一膜电位矩阵传递至加法模块进行相加,得到残差块的输出矩阵;在每个批标准化层的输出端设置有LIF神经元的激活函数的情况下,对卷积模块的输出矩阵和跳跃连接模块的输出矩阵进行转换处理,分别得到第二膜电位矩阵和第三膜电位矩阵;将第二膜电位矩阵和第三膜电位矩阵传递至加法模块进行相加,得到第四膜电位矩阵;对第四膜电位矩阵进行脉冲化处理,得到残差块的输出矩阵。
-
公开(公告)号:CN118152528A
公开(公告)日:2024-06-07
申请号:CN202410222968.2
申请日:2024-02-28
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06N3/045 , G06N3/08 , G06F18/214
Abstract: 本发明提供一种基于大语言模型的行动方案生成模型的训练方法及装置,其中方法包括:获取行动方案样本的背景信息,以及初始大语言模型;基于背景信息,以及通用大语言模型,构建行动方案样本的想定数据集;基于想定数据集,以及通用大语言模型,构建行动方案样本的问题数据集;基于问题数据集,以及通用大语言模型,构建行动方案样本的方案数据集;基于问题数据集以及方案数据集,对初始大语言模型进行训练,得到行动方案生成模型。本发明提供的方法,基于连续多阶段的数据集构建,提升了训练数据的全面性、准确性、可定制性。并通过构建得到的数据集对初始大语言模型进行微调训练,提升行动方案生成模型的准确性、可行性、实用性。
-
公开(公告)号:CN116504248A
公开(公告)日:2023-07-28
申请号:CN202310345272.4
申请日:2023-03-31
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于层次化蒸馏的语音识别模型的训练方法、装置、电子设备和存储介质,其中方法包括:确定训练语音文本对,得到训练语音文本对对应的高阶声学表征,并确定训练语音文本对对应的语言学表征;基于预训练语言模型确定训练语音文本对的预训练语言学表征,并对高阶声学表征和预训练语言学表征进行归一化处理,得到第一归一表征和第二归一表征;基于第一归一表征和第二归一表征得到声学层次的第一蒸馏损失,以及基于语言学表征和预训练语言学表征得到语言学层次的第二蒸馏损失;基于声学层次的第一蒸馏损失和语言学层次的第二蒸馏损失,确定语音识别模型是否训练完成,并在训练完成时得到语音识别模型。提高了语音识别模型的识别准确率。
-
公开(公告)号:CN116110378B
公开(公告)日:2023-07-18
申请号:CN202310383270.4
申请日:2023-04-12
Applicant: 中国科学院自动化研究所
Abstract: 本申请提供一种模型训练方法、语音识别方法、装置和电子设备,涉及语音识别技术领域。该方法包括:获取基于连续整合发放CIF机制训练得到的语音识别模型,并基于语音识别模型中声学编码模块的模型参数和CIF模块的模型参数,分别对初始多模态语音识别模型中初始声学编码模块的模型参数和初始CIF模块的模型参数进行初始化;再基于语音样本、语音样本对应的视觉图像样本和文本样本对初始化后的多模态语音识别模型进行训练,使得训练出的多模态语音识别模型在进行语音识别时,在多模态语音识别中引入了情境视觉知识和情境语言知识,有效地提高了语音识别性能,拓展了多模态语音识别的边界。
-
公开(公告)号:CN116245080A
公开(公告)日:2023-06-09
申请号:CN202211600613.X
申请日:2022-12-12
Applicant: 中国科学院自动化研究所
IPC: G06F40/151 , G06F40/289 , G06F40/30 , G06F16/35 , G06F18/214 , G06N3/08 , G06N3/09
Abstract: 本发明提供一种基于强化学习的口语书面语转换方法、装置、设备和介质,其中方法包括:获取口语文本;将所述口语文本输入到转换模型中,得到所述转换模型输出的书面文本;所述转换模型是以样本口语文本中各分词的编辑操作为动作,以所述编辑操作执行所得的样本书面文本与所述样本口语文本之间的语义一致程度和/或所述样本书面文本的书面化程度为奖励,强化学习得到的。本发明提供的方法、装置、设备和介质,强化学习的过程脱离了标注数据不足的限制,并且语义一致程度和书面化程度给出了高层次、可解释的奖励,应用由此得到的转换模型进行文本转换,保证了口语文本到书面文本转换的可靠性和可解释性。
-
-
-
-
-
-
-
-
-