-
公开(公告)号:CN117409762A
公开(公告)日:2024-01-16
申请号:CN202311267145.3
申请日:2023-09-27
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
IPC: G10L13/033 , G10L13/08 , G10L19/16
Abstract: 本发明公开了一种语音编辑及优化方法、装置、设备及存储介质,该方法包括:将原始音频对应的掩盖后音频和待合成文本输入至语音编辑模型,得到编辑后音频,编辑后音频为将掩盖后音频和待合成文本进行编辑合成后生成的音频;将编辑后音频和原始音频输入声音转换模型,得到转换后音频,转换后音频为基于原始音频对编辑后音频的音频特征进行转换后的音频,本发明将原始音频对应的掩盖后音频和待合成文本输入语音编辑模型,得到编辑后音频,完成了自定义角色名场景下的配音任务,提升了用户的沉浸感;将编辑后音频和原始音频输入声音转换模型,优化了编辑后音频与原始音频边界的过渡,且保留了声优原始录制状态,提升了声音编辑后语音的表现力。
-
公开(公告)号:CN117059071A
公开(公告)日:2023-11-14
申请号:CN202311139611.X
申请日:2023-09-05
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明公开了一种语音识别系统、方法及介质。其中,所述系统包括用户模块,用于根据待识别语音数据确定声学特征频谱,并根据声学特征频谱,以及,基于语音识别模型确定待识别语音数据的隐私特征,并将隐私特征发送至云端模块;用户模块,用于根据隐私特征以及基于语音识别模型确定第一文本数据以及第一文本数据得分;云端模块,用于根据隐私特征以及基于语音识别模型确定第二文本数据以及第二文本数据得分,将第二文本数据、第二文本数据得分发送至用户模块;用户模块,还用于基于各文本数据以及各文本数据得分确定目标文本数据。通过执行本方案,可以实现在保护用户隐私的同时保证了语音识别的实时性和准确性,可以提升用户体验。
-
公开(公告)号:CN119274168A
公开(公告)日:2025-01-07
申请号:CN202411236993.2
申请日:2024-09-04
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明涉及智能座舱技术领域,特别涉及一种驾驶员的缺水状态检测方法及装置,其中,方法包括:采集驾驶员的多个驾驶行为图像帧;从每个驾驶行为图像帧中,提取驾驶员的至少一个关键特征;以及获取对应于每个驾驶行为图像帧的车辆的行驶状态,并根据行驶状态和至少一个关键特征识别驾驶员的实际缺水状态。由此,解决了现有通过人脸识别或者借助单独设备的方式无法有效地监测驾驶员的缺水状态,且缺乏将车辆行驶状态与驾驶员行为有效结合的机制,容易侵犯隐私等问题。
-
公开(公告)号:CN117153142A
公开(公告)日:2023-12-01
申请号:CN202311101067.X
申请日:2023-08-29
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
IPC: G10L13/02 , G10L13/047
Abstract: 本发明公开了一种语音信号合成方法、装置、电子设备及存储介质。该方法包括:对输入文本进行正则化处理;将输入文本输入至经过训练的多任务模型;通过声学模型,根据音素序列和韵律结构特征的拼接结果预测语音的声音成分;通过声码器基于声音成分合成语音信号。上述技术方案,通过多任务模型基于指令集将输入文本转换为对应的韵律结构特征和音素序列,最后通过声学模型和声码器将音素序列和韵律结构特征合成语音信号,避免了为每个任务单独构建多任务模型,从而降低了多任务模型的复杂度,增强了文本转音素的精度和质量,提高了语音信号合成的处理效率和准确性,有助于在多语言场景中更加准确地预测出语音信号合成中的发音信息。
-
公开(公告)号:CN115064177A
公开(公告)日:2022-09-16
申请号:CN202210669839.9
申请日:2022-06-14
Applicant: 中国第一汽车股份有限公司
Abstract: 本发明实施例公开了一种基于声纹编码器的语音转换方法、装置、设备及介质。其中,该方法包括:获取第一个体的音频数据;获取第二个体的声纹特征;其中,所述第二个体的声纹特征是采用预先训练的声纹编码器输出得到的;将所述第一个体的音频数据和所述声纹特征输入至预先训练的语音转换模型,以供所述语音转换模型基于所述第一个体的音频数据和所述声纹特征的编码结果,得到由第一个体到第二个体的语音转换结果。本技术方案,能够实现第一个体到第二个体的语音转换,且保留了第一个体的说话习惯,并能够实现对第一个体和第二个体的任意切换。
-
公开(公告)号:CN115034409A
公开(公告)日:2022-09-09
申请号:CN202210612068.X
申请日:2022-05-31
Applicant: 中国第一汽车股份有限公司
Abstract: 本发明实施例公开了车辆维修方案确定方法、装置、设备及存储介质。该方法包括:获取目标车辆的原始故障描述数据,其中,原始故障描述数据包括车主的描述数据和/或维修人员的描述数据,将原始故障描述数据转换为满足预设要求的标准知识表示信息,其中,预设要求与预设维修知识图谱相关联,得到目标故障描述信息,将目标故障描述信息与预设维修知识图谱进行匹配,并根据匹配结果输出至少一个推荐维修方案。通过采用上述技术方案,利用车辆的故障描述数据和知识图谱可以快速输出有针对性的推荐维修方案,帮助车主或维修人员快速获知解决当前车辆故障问题的解决方式,提高车辆维修效率。
-
公开(公告)号:CN119314157A
公开(公告)日:2025-01-14
申请号:CN202411344158.0
申请日:2024-09-25
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明公开了一种图像处理模型的训练方法、装置、设备及介质。该方法包括:将样本人脸数据输入待训练的图像处理模型中的人脸特征提取单元,得到样本人脸特征;所述图像处理模型还包括性别判断单元、风格特征提取单元、特征增强单元和年龄预测单元;将样本人脸特征输入性别判断单元进行性别判断;将年龄标签输入风格特征提取单元得到表征年龄的风格特征;将风格特征和样本人脸特征输入特征增强单元得到增强特征;将增强特征输入年龄预测单元进行年龄预测;根据真实年龄、性别判断结果和年龄预测结果,确定所述图像处理模型的最终损失,并根据所述最终损失对所述图像处理模型的参数进行更新。本发明实施例可以提高年龄预测的准确性。
-
公开(公告)号:CN119130940A
公开(公告)日:2024-12-13
申请号:CN202411153519.3
申请日:2024-08-21
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明公开了一种轮胎气压状态确定方法、装置、设备、介质以及程序产品,属于轮胎气压检测技术领域,所述方法包括:获取目标轮胎的初始轮胎图像;根据初始轮胎图像中目标轮胎与地面的接触长度,对初始轮胎图像进行图像裁剪处理,得到目标轮胎图像;对目标轮胎图像进行语义分割处理,得到目标图像区域;确定目标轮胎图像中每一辐条的辐条延长线穿越目标图像区域的重叠距离;根据各重叠距离和距离偏差阈值,确定目标轮胎的轮胎气压状态。本发明在不依赖物理传感器的情况下,实现了对自行车轮胎气压状态的实时监测和精准确定;同时减少了骑行者的使用负担。
-
公开(公告)号:CN118570859A
公开(公告)日:2024-08-30
申请号:CN202410707012.1
申请日:2024-06-03
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
IPC: G06V40/16 , G06V40/18 , G06V10/774 , G06V20/70 , G06V20/59
Abstract: 本申请实施例提供一种车辆座舱外视线估计方法、装置、设备和存储介质。该方法包括:获取所述第一摄像头采集的驾驶员图像和所述第二摄像头采集的车辆前视图像;确定所述驾驶员图像中的人脸图像以及所述车辆前视图像中的多个目标图像;针对每个目标图像,根据所述人脸图像、所述目标图像、所述车辆前视图像和预设视线估计模型,确定所述目标图像为所述车辆前视图像中驾驶员的注视目标的预测概率;根据各预测概率,确定所述车辆前视图像中驾驶员的注视目标。该方法提高了车辆座舱外驾驶员视线估计的准确率,且降低了驾驶员视线估计成本。
-
公开(公告)号:CN115035909B
公开(公告)日:2024-08-13
申请号:CN202210613329.X
申请日:2022-05-31
Applicant: 中国第一汽车股份有限公司
IPC: G10L21/12
Abstract: 本发明实施例公开了一种音乐可视化展示方法及装置。包括:获取可视化音乐界面的背景音乐,基于背景音乐的音频数据生成界面元素于可视化音乐界面的第一运动曲线;根据第一运动曲线确定界面元素的初始运动位置和运动变化位置,控制界面元素沿第一运动曲线从初始运动位置运动到运动变化位置;确定界面元素的运动结束位置,基于运动变化位置和运动结束位置生成界面元素的第二运动曲线,并控制界面元素沿第二运动曲线从运动变化位置运动至运动结束位置,解决了目前车载多媒体的音乐可视化展示方式存在表现形式过于单一,无法满足人们在音乐视觉方面上越来越高的需求问题,从而达到提升用户听音乐时的视觉感官体验和系统可玩性的技术效果。
-
-
-
-
-
-
-
-
-