-
公开(公告)号:CN116543758B
公开(公告)日:2023-09-15
申请号:CN202310762127.6
申请日:2023-06-27
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明公开了一种语音唤醒模型的更新方法、系统和介质。该方法包括:获取计算节点集合中每个计算节点对应的私有模型和测试数据库;其中,所有计算节点位于同一个区域内;按照预设融合算法对私有模型进行融合,得到对应的目标增强模型;将测试数据库中的测试数据分别输入至每个私有模型和目标增强模型,得到对应的第一实际唤醒准确率和第二实际唤醒准确率;基于第一实际唤醒准确率、第二实际唤醒准确率和唤醒准确率差值阈值对每个计算节点的私有模型进行更新。本发明实现了通过处于同一个区域内的多个计算节点对自身实际工况下创建的私有数据库进行共享,并采用这些数据对基础模型进行增量训练,从而提升了在噪声环境下语音唤醒的准确率和稳定性。
-
公开(公告)号:CN116662484A
公开(公告)日:2023-08-29
申请号:CN202310615901.0
申请日:2023-05-29
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
IPC: G06F16/33 , G06F16/35 , G06F18/24 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种文本正则化方法、装置、设备以及存储介质,所述方法包括:对待处理文本进行预处理,得到目标文本;在目标文本中存在非标准词且非标准词属于有歧义类型非标准词的情况下,采用神经网络识别模型对非标准词进行识别,得到非标准词所属的目标字符类型;根据目标字符类型从非标准词的候选转换规则中选择目标转换规则,并采用目标转换规则对非标准词进行替换,得到正则化的目标文本。本发明在将目标文本转换成正则化的目标文本的过程中,采用神经网络识别模型对非标准词进行识别,实现了对有歧义类型非标准词的识别,提高了对歧义文本的识别率,进而提高了文本正则化的准确性。
-
公开(公告)号:CN115035896B
公开(公告)日:2023-05-23
申请号:CN202210609856.3
申请日:2022-05-31
Applicant: 中国第一汽车股份有限公司
Abstract: 本发明公开了一种车用语音唤醒方法、装置、电子设备及存储介质,该方法包括:获取目标车辆的车联网数据以及预设帧数的座舱语音数据;根据所述车联网数据,确定车联网编码数据,并根据所述座舱语音数据,确定音频特征编码数据;根据所述车联网编码数据以及所述音频特征编码数据,确定特征融合数据;将所述特征融合数据输入至预先训练完成的唤醒模型中,得到与所述特征融合数据相对应的唤醒数据;其中,所述唤醒模型基于多尺度深度可分时域卷积网络构建;基于所述唤醒数据,对所述目标车辆的语音交互系统进行处理。通过本发明实施例的技术方案,实现了提高车用语音唤醒的场景适应性,并提高用户体验度的技术效果。
-
公开(公告)号:CN115035911A
公开(公告)日:2022-09-09
申请号:CN202210614008.1
申请日:2022-05-31
Applicant: 中国第一汽车股份有限公司
Abstract: 本申请实施例公开了一种噪声生成模型训练方法、装置、设备及介质。该方法包括:获取预设时间步长的参考噪声数据和期望噪声类别;将参考噪声数据和期望噪声类别输入至预设的噪声生成模型,以根据预设时间步长和期望噪声类别,生成期望类别特征,并提取参考噪声数据中的预测噪声特征,且根据期望类别特征和预测噪声特征,生成预设时间步长对应未来时刻的未来噪声数据;根据未来时刻的标准噪声数据和未来噪声数据,调整噪声生成模型中的待训练参数。本申请实施例提高了生成噪声的准确度,以及实现了对车辆行驶过程中噪声场景的全面覆盖。
-
公开(公告)号:CN116580713A
公开(公告)日:2023-08-11
申请号:CN202310650869.X
申请日:2023-06-02
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明实施例公开了一种车载语音识别方法、装置、设备和存储介质,其中,方法包括:获取目标车辆中各音区车载麦克风采集到的多路原始音频信号,并对所述多路原始音频信号进行信号处理得到混合音区特征;将所述混合音区特征输入到预设音区编码识别神经网络,得到各音区编码特征;将所述各音区编码特征输入到预设语音识别网络,得到各音区语音识别文本内容,并基于所述各音区语音识别文本内容确定目标语音识别结果。本发明实施例的技术方案解决了现有技术中无法准确且高效地识别车内混合语音的问题,可以提高对车内混合语音的识别准确性和识别效率和识别效率。
-
公开(公告)号:CN116543758A
公开(公告)日:2023-08-04
申请号:CN202310762127.6
申请日:2023-06-27
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明公开了一种语音唤醒模型的更新方法、系统和介质。该方法包括:获取计算节点集合中每个计算节点对应的私有模型和测试数据库;其中,所有计算节点位于同一个区域内;按照预设融合算法对私有模型进行融合,得到对应的目标增强模型;将测试数据库中的测试数据分别输入至每个私有模型和目标增强模型,得到对应的第一实际唤醒准确率和第二实际唤醒准确率;基于第一实际唤醒准确率、第二实际唤醒准确率和唤醒准确率差值阈值对每个计算节点的私有模型进行更新。本发明实现了通过处于同一个区域内的多个计算节点对自身实际工况下创建的私有数据库进行共享,并采用这些数据对基础模型进行增量训练,从而提升了在噪声环境下语音唤醒的准确率和稳定性。
-
公开(公告)号:CN116245716A
公开(公告)日:2023-06-09
申请号:CN202310497919.5
申请日:2023-05-06
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
IPC: G06T3/00 , G06V20/56 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08 , B60W50/14
Abstract: 本发明公开了一种车辆的路况图像的处理方法及装置。其中,该方法包括:获取车辆的初始路况图像及预设风格图像,其中,初始路况图像为由车辆的图像采集设备对车辆所行驶在的道路的路况进行图像采集而得到,预设风格图像用于表征初始路况图像的显示风格;对初始路况图像进行关键特征提取,得到目标图像矩阵,且对预设风格图像进行风格特征提取,得到目标风格矩阵,其中目标图像矩阵为初始图像中关键物体的描述矩阵,目标风格矩阵为预设风格图像中的风格类型矩阵;对初始路况图像、目标图像矩阵以及目标风格矩阵进行融合,得到目标路况图像。本发明解决了相关技术中对车辆的路况图像的处理准确率低的技术问题。
-
公开(公告)号:CN115035911B
公开(公告)日:2023-05-02
申请号:CN202210614008.1
申请日:2022-05-31
Applicant: 中国第一汽车股份有限公司
Abstract: 本申请实施例公开了一种噪声生成模型训练方法、装置、设备及介质。该方法包括:获取预设时间步长的参考噪声数据和期望噪声类别;将参考噪声数据和期望噪声类别输入至预设的噪声生成模型,以根据预设时间步长和期望噪声类别,生成期望类别特征,并提取参考噪声数据中的预测噪声特征,且根据期望类别特征和预测噪声特征,生成预设时间步长对应未来时刻的未来噪声数据;根据未来时刻的标准噪声数据和未来噪声数据,调整噪声生成模型中的待训练参数。本申请实施例提高了生成噪声的准确度,以及实现了对车辆行驶过程中噪声场景的全面覆盖。
-
公开(公告)号:CN115035909A
公开(公告)日:2022-09-09
申请号:CN202210613329.X
申请日:2022-05-31
Applicant: 中国第一汽车股份有限公司
IPC: G10L21/12
Abstract: 本发明实施例公开了一种音乐可视化展示方法及装置。包括:获取可视化音乐界面的背景音乐,基于背景音乐的音频数据生成界面元素于可视化音乐界面的第一运动曲线;根据第一运动曲线确定界面元素的初始运动位置和运动变化位置,控制界面元素沿第一运动曲线从初始运动位置运动到运动变化位置;确定界面元素的运动结束位置,基于运动变化位置和运动结束位置生成界面元素的第二运动曲线,并控制界面元素沿第二运动曲线从运动变化位置运动至运动结束位置,解决了目前车载多媒体的音乐可视化展示方式存在表现形式过于单一,无法满足人们在音乐视觉方面上越来越高的需求问题,从而达到提升用户听音乐时的视觉感官体验和系统可玩性的技术效果。
-
公开(公告)号:CN114999534A
公开(公告)日:2022-09-02
申请号:CN202210657570.2
申请日:2022-06-10
Applicant: 中国第一汽车股份有限公司
IPC: G10L25/63 , G10L25/48 , G10L25/30 , G06V40/16 , G06V10/774 , G06V10/82 , G06N3/04 , G06N3/08 , G11B31/00 , G11C7/16
Abstract: 本发明实施例公开了一种车载音乐的播放控制方法、装置、设备和存储介质。该方法包括:获取目标车辆的当前播放音乐,确定与所述当前播放音乐对应的情绪检测参考点;当所述当前播放音乐对播放至所述情绪检测参考点处时,获取所述目标车辆内的目标对象的对象图像信息和对象声音信息;根据所述对象图像信息和所述对象声音信息确定所述目标对象的目标情绪;根据所述目标情绪确定所述当前播放音乐的播放方式,其中,所述播放方式包括继续播放或停止播放。从而实现对车载音乐智能化实时调整,提高了用户的体验。
-
-
-
-
-
-
-
-
-