-
公开(公告)号:CN119314157A
公开(公告)日:2025-01-14
申请号:CN202411344158.0
申请日:2024-09-25
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明公开了一种图像处理模型的训练方法、装置、设备及介质。该方法包括:将样本人脸数据输入待训练的图像处理模型中的人脸特征提取单元,得到样本人脸特征;所述图像处理模型还包括性别判断单元、风格特征提取单元、特征增强单元和年龄预测单元;将样本人脸特征输入性别判断单元进行性别判断;将年龄标签输入风格特征提取单元得到表征年龄的风格特征;将风格特征和样本人脸特征输入特征增强单元得到增强特征;将增强特征输入年龄预测单元进行年龄预测;根据真实年龄、性别判断结果和年龄预测结果,确定所述图像处理模型的最终损失,并根据所述最终损失对所述图像处理模型的参数进行更新。本发明实施例可以提高年龄预测的准确性。
-
公开(公告)号:CN118570859A
公开(公告)日:2024-08-30
申请号:CN202410707012.1
申请日:2024-06-03
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
IPC: G06V40/16 , G06V40/18 , G06V10/774 , G06V20/70 , G06V20/59
Abstract: 本申请实施例提供一种车辆座舱外视线估计方法、装置、设备和存储介质。该方法包括:获取所述第一摄像头采集的驾驶员图像和所述第二摄像头采集的车辆前视图像;确定所述驾驶员图像中的人脸图像以及所述车辆前视图像中的多个目标图像;针对每个目标图像,根据所述人脸图像、所述目标图像、所述车辆前视图像和预设视线估计模型,确定所述目标图像为所述车辆前视图像中驾驶员的注视目标的预测概率;根据各预测概率,确定所述车辆前视图像中驾驶员的注视目标。该方法提高了车辆座舱外驾驶员视线估计的准确率,且降低了驾驶员视线估计成本。
-
公开(公告)号:CN115035909B
公开(公告)日:2024-08-13
申请号:CN202210613329.X
申请日:2022-05-31
Applicant: 中国第一汽车股份有限公司
IPC: G10L21/12
Abstract: 本发明实施例公开了一种音乐可视化展示方法及装置。包括:获取可视化音乐界面的背景音乐,基于背景音乐的音频数据生成界面元素于可视化音乐界面的第一运动曲线;根据第一运动曲线确定界面元素的初始运动位置和运动变化位置,控制界面元素沿第一运动曲线从初始运动位置运动到运动变化位置;确定界面元素的运动结束位置,基于运动变化位置和运动结束位置生成界面元素的第二运动曲线,并控制界面元素沿第二运动曲线从运动变化位置运动至运动结束位置,解决了目前车载多媒体的音乐可视化展示方式存在表现形式过于单一,无法满足人们在音乐视觉方面上越来越高的需求问题,从而达到提升用户听音乐时的视觉感官体验和系统可玩性的技术效果。
-
公开(公告)号:CN116543758B
公开(公告)日:2023-09-15
申请号:CN202310762127.6
申请日:2023-06-27
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明公开了一种语音唤醒模型的更新方法、系统和介质。该方法包括:获取计算节点集合中每个计算节点对应的私有模型和测试数据库;其中,所有计算节点位于同一个区域内;按照预设融合算法对私有模型进行融合,得到对应的目标增强模型;将测试数据库中的测试数据分别输入至每个私有模型和目标增强模型,得到对应的第一实际唤醒准确率和第二实际唤醒准确率;基于第一实际唤醒准确率、第二实际唤醒准确率和唤醒准确率差值阈值对每个计算节点的私有模型进行更新。本发明实现了通过处于同一个区域内的多个计算节点对自身实际工况下创建的私有数据库进行共享,并采用这些数据对基础模型进行增量训练,从而提升了在噪声环境下语音唤醒的准确率和稳定性。
-
公开(公告)号:CN116662484A
公开(公告)日:2023-08-29
申请号:CN202310615901.0
申请日:2023-05-29
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
IPC: G06F16/33 , G06F16/35 , G06F18/24 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种文本正则化方法、装置、设备以及存储介质,所述方法包括:对待处理文本进行预处理,得到目标文本;在目标文本中存在非标准词且非标准词属于有歧义类型非标准词的情况下,采用神经网络识别模型对非标准词进行识别,得到非标准词所属的目标字符类型;根据目标字符类型从非标准词的候选转换规则中选择目标转换规则,并采用目标转换规则对非标准词进行替换,得到正则化的目标文本。本发明在将目标文本转换成正则化的目标文本的过程中,采用神经网络识别模型对非标准词进行识别,实现了对有歧义类型非标准词的识别,提高了对歧义文本的识别率,进而提高了文本正则化的准确性。
-
公开(公告)号:CN115035896B
公开(公告)日:2023-05-23
申请号:CN202210609856.3
申请日:2022-05-31
Applicant: 中国第一汽车股份有限公司
Abstract: 本发明公开了一种车用语音唤醒方法、装置、电子设备及存储介质,该方法包括:获取目标车辆的车联网数据以及预设帧数的座舱语音数据;根据所述车联网数据,确定车联网编码数据,并根据所述座舱语音数据,确定音频特征编码数据;根据所述车联网编码数据以及所述音频特征编码数据,确定特征融合数据;将所述特征融合数据输入至预先训练完成的唤醒模型中,得到与所述特征融合数据相对应的唤醒数据;其中,所述唤醒模型基于多尺度深度可分时域卷积网络构建;基于所述唤醒数据,对所述目标车辆的语音交互系统进行处理。通过本发明实施例的技术方案,实现了提高车用语音唤醒的场景适应性,并提高用户体验度的技术效果。
-
公开(公告)号:CN115035911A
公开(公告)日:2022-09-09
申请号:CN202210614008.1
申请日:2022-05-31
Applicant: 中国第一汽车股份有限公司
Abstract: 本申请实施例公开了一种噪声生成模型训练方法、装置、设备及介质。该方法包括:获取预设时间步长的参考噪声数据和期望噪声类别;将参考噪声数据和期望噪声类别输入至预设的噪声生成模型,以根据预设时间步长和期望噪声类别,生成期望类别特征,并提取参考噪声数据中的预测噪声特征,且根据期望类别特征和预测噪声特征,生成预设时间步长对应未来时刻的未来噪声数据;根据未来时刻的标准噪声数据和未来噪声数据,调整噪声生成模型中的待训练参数。本申请实施例提高了生成噪声的准确度,以及实现了对车辆行驶过程中噪声场景的全面覆盖。
-
公开(公告)号:CN114999534B
公开(公告)日:2024-12-20
申请号:CN202210657570.2
申请日:2022-06-10
Applicant: 中国第一汽车股份有限公司
IPC: G10L25/63 , G10L25/48 , G10L25/30 , G06V40/16 , G06V10/774 , G06V10/82 , G06N3/044 , G06N3/0464 , G06N3/08 , G11B31/00 , G11C7/16
Abstract: 本发明实施例公开了一种车载音乐的播放控制方法、装置、设备和存储介质。该方法包括:获取目标车辆的当前播放音乐,确定与所述当前播放音乐对应的情绪检测参考点;当所述当前播放音乐对播放至所述情绪检测参考点处时,获取所述目标车辆内的目标对象的对象图像信息和对象声音信息;根据所述对象图像信息和所述对象声音信息确定所述目标对象的目标情绪;根据所述目标情绪确定所述当前播放音乐的播放方式,其中,所述播放方式包括继续播放或停止播放。从而实现对车载音乐智能化实时调整,提高了用户的体验。
-
公开(公告)号:CN118770263A
公开(公告)日:2024-10-15
申请号:CN202410770643.8
申请日:2024-06-14
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明涉及计算机技术领域,尤其涉及一种车辆控制方法、装置、设备及介质。其中,方法包括:在监测到唤醒指令之后,采集驾驶员的语音信号,并在采集语音信号的过程中,采集车内图像;确定与驾驶员对应的待控制部件的部件名称和操作名称;确定驾驶员的视线角度和头部姿态角度;确定驾驶员的视线目标名称;检测部件名称是否是模糊部件名称;若是,则根据视线目标名称对部件名称进行修正,根据操作名称以及修正后的部件名称,控制待控制部件执行与操作名称对应的操作。本发明实施例可以自动根据基于车内图像确定的视线目标名称,将不准确的部件名称修正为准确的部件名称,准确地确定待控制部件的部件名称,控制待控制部件执行对应的操作。
-
公开(公告)号:CN118609536A
公开(公告)日:2024-09-06
申请号:CN202410777954.7
申请日:2024-06-17
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
IPC: G10L13/02 , G10L13/04 , G10L13/047 , G10L13/08 , G10L25/03 , G10L25/27 , G06F18/23 , G06F18/2321 , G06F18/23213
Abstract: 本发明公开了一种音频生成方法、装置、设备和存储介质,涉及音频技术领域。该方法包括:响应接收到的文本信息,获取目标用户的历史音频信息,文本信息由目标用户通过目标终端发送;从历史音频信息中提取音色特征;对提取的音色特征进行聚类,以确定聚类中心的音色特征;根据聚类中心的音色特征确定目标用户的当前音色特征;将目标用户的当前音色特征和文本信息输入语音生成模型,以生成具有目标用户的当前音色特征的目标音频。通过本发明实施例的技术方案可以生成个性化语音,从而提高用户体验。
-
-
-
-
-
-
-
-
-