-
公开(公告)号:CN116580713A
公开(公告)日:2023-08-11
申请号:CN202310650869.X
申请日:2023-06-02
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明实施例公开了一种车载语音识别方法、装置、设备和存储介质,其中,方法包括:获取目标车辆中各音区车载麦克风采集到的多路原始音频信号,并对所述多路原始音频信号进行信号处理得到混合音区特征;将所述混合音区特征输入到预设音区编码识别神经网络,得到各音区编码特征;将所述各音区编码特征输入到预设语音识别网络,得到各音区语音识别文本内容,并基于所述各音区语音识别文本内容确定目标语音识别结果。本发明实施例的技术方案解决了现有技术中无法准确且高效地识别车内混合语音的问题,可以提高对车内混合语音的识别准确性和识别效率和识别效率。
-
公开(公告)号:CN116543758A
公开(公告)日:2023-08-04
申请号:CN202310762127.6
申请日:2023-06-27
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明公开了一种语音唤醒模型的更新方法、系统和介质。该方法包括:获取计算节点集合中每个计算节点对应的私有模型和测试数据库;其中,所有计算节点位于同一个区域内;按照预设融合算法对私有模型进行融合,得到对应的目标增强模型;将测试数据库中的测试数据分别输入至每个私有模型和目标增强模型,得到对应的第一实际唤醒准确率和第二实际唤醒准确率;基于第一实际唤醒准确率、第二实际唤醒准确率和唤醒准确率差值阈值对每个计算节点的私有模型进行更新。本发明实现了通过处于同一个区域内的多个计算节点对自身实际工况下创建的私有数据库进行共享,并采用这些数据对基础模型进行增量训练,从而提升了在噪声环境下语音唤醒的准确率和稳定性。
-
公开(公告)号:CN116245716A
公开(公告)日:2023-06-09
申请号:CN202310497919.5
申请日:2023-05-06
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
IPC: G06T3/00 , G06V20/56 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08 , B60W50/14
Abstract: 本发明公开了一种车辆的路况图像的处理方法及装置。其中,该方法包括:获取车辆的初始路况图像及预设风格图像,其中,初始路况图像为由车辆的图像采集设备对车辆所行驶在的道路的路况进行图像采集而得到,预设风格图像用于表征初始路况图像的显示风格;对初始路况图像进行关键特征提取,得到目标图像矩阵,且对预设风格图像进行风格特征提取,得到目标风格矩阵,其中目标图像矩阵为初始图像中关键物体的描述矩阵,目标风格矩阵为预设风格图像中的风格类型矩阵;对初始路况图像、目标图像矩阵以及目标风格矩阵进行融合,得到目标路况图像。本发明解决了相关技术中对车辆的路况图像的处理准确率低的技术问题。
-
公开(公告)号:CN115035911B
公开(公告)日:2023-05-02
申请号:CN202210614008.1
申请日:2022-05-31
Applicant: 中国第一汽车股份有限公司
Abstract: 本申请实施例公开了一种噪声生成模型训练方法、装置、设备及介质。该方法包括:获取预设时间步长的参考噪声数据和期望噪声类别;将参考噪声数据和期望噪声类别输入至预设的噪声生成模型,以根据预设时间步长和期望噪声类别,生成期望类别特征,并提取参考噪声数据中的预测噪声特征,且根据期望类别特征和预测噪声特征,生成预设时间步长对应未来时刻的未来噪声数据;根据未来时刻的标准噪声数据和未来噪声数据,调整噪声生成模型中的待训练参数。本申请实施例提高了生成噪声的准确度,以及实现了对车辆行驶过程中噪声场景的全面覆盖。
-
公开(公告)号:CN115035909A
公开(公告)日:2022-09-09
申请号:CN202210613329.X
申请日:2022-05-31
Applicant: 中国第一汽车股份有限公司
IPC: G10L21/12
Abstract: 本发明实施例公开了一种音乐可视化展示方法及装置。包括:获取可视化音乐界面的背景音乐,基于背景音乐的音频数据生成界面元素于可视化音乐界面的第一运动曲线;根据第一运动曲线确定界面元素的初始运动位置和运动变化位置,控制界面元素沿第一运动曲线从初始运动位置运动到运动变化位置;确定界面元素的运动结束位置,基于运动变化位置和运动结束位置生成界面元素的第二运动曲线,并控制界面元素沿第二运动曲线从运动变化位置运动至运动结束位置,解决了目前车载多媒体的音乐可视化展示方式存在表现形式过于单一,无法满足人们在音乐视觉方面上越来越高的需求问题,从而达到提升用户听音乐时的视觉感官体验和系统可玩性的技术效果。
-
公开(公告)号:CN114999534A
公开(公告)日:2022-09-02
申请号:CN202210657570.2
申请日:2022-06-10
Applicant: 中国第一汽车股份有限公司
IPC: G10L25/63 , G10L25/48 , G10L25/30 , G06V40/16 , G06V10/774 , G06V10/82 , G06N3/04 , G06N3/08 , G11B31/00 , G11C7/16
Abstract: 本发明实施例公开了一种车载音乐的播放控制方法、装置、设备和存储介质。该方法包括:获取目标车辆的当前播放音乐,确定与所述当前播放音乐对应的情绪检测参考点;当所述当前播放音乐对播放至所述情绪检测参考点处时,获取所述目标车辆内的目标对象的对象图像信息和对象声音信息;根据所述对象图像信息和所述对象声音信息确定所述目标对象的目标情绪;根据所述目标情绪确定所述当前播放音乐的播放方式,其中,所述播放方式包括继续播放或停止播放。从而实现对车载音乐智能化实时调整,提高了用户的体验。
-
公开(公告)号:CN119693979A
公开(公告)日:2025-03-25
申请号:CN202411522419.3
申请日:2024-10-29
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
IPC: G06V40/16 , G06V20/59 , G06V10/82 , G06N3/0464 , B60W40/08 , B60W30/182
Abstract: 本发明公开了一种基于情绪识别的车辆控制方法、装置、设备及介质。该方法包括:获取车辆内部的实时图像数据;根据当前面部信息,确定每一驾乘人员人脸上的各预设面部关键点的当前位置信息;其中,不同驾乘人员人脸上的各预设面部关键点所覆盖的人脸位置相同;根据各预设面部关键点的当前位置信息和初始位置信息,确定该各预设面部关键点的偏移量;其中,初始位置信息可以是各预设面部关键点在对应人脸处于平静状态时的位置信息;根据各预设面部关键点的偏移量,确定车辆对应的情绪状态,并根据该情绪状态,控制执行对应的车辆功能。上述技术方案实现了对相应车辆功能的自动控制执行,提高相应车辆控制的智能化程度。
-
公开(公告)号:CN119672754A
公开(公告)日:2025-03-21
申请号:CN202411522422.5
申请日:2024-10-29
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明公开了一种车内人员的情绪检测方法、装置、设备及介质,涉及智能车辆技术领域,包括:获取目标乘车人员的至少一个面部关键点的类型和实时位置、目标乘车人员所处车内的空气质量数据;针对每一面部关键点,获取面部关键点的类型对应的正常位置变化区域;根据面部关键点的实时位置,以及空气质量数据,对面部关键点的类型对应的正常位置变化区域进行调整,得到调整位置区域;根据面部关键点的调整位置区域和面部关键点的实时位置,对面部关键点进行异常检测,得到面部关键点的位置异常检测结果;根据各面部关键点的位置异常检测结果,对目标乘车人员的情绪进行异常检测,确定目标乘车人员的情绪异常检测结果。本发明提高了车内人员的情绪检测的准确率。
-
公开(公告)号:CN119659530A
公开(公告)日:2025-03-21
申请号:CN202411753812.3
申请日:2024-12-02
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明公开了一种车辆雨刷控制方法、装置、设备、介质及产品。该方法包括:在车辆运行的过程中,若检测到雨刷控制指令,则通过车载摄像头进行图像采集,以得到包含车辆前挡风玻璃的目标图像;确定目标图像对应的初始雨滴覆盖率,并根据初始雨滴覆盖率,基于迭代二分方法,对目标图像进行迭代划分,直至存在划分的区域图像满足结束递归条件为止;根据结束递归时的目标递归深度确定雨量估计值,并根据确定的雨量估计值,控制车辆的雨刷频率。本发明的技术方案,通过实时分析前挡风玻璃上的雨滴情况,从而动态调整雨刷频率,可以提高雨刷控制的智能化水平,提升驾驶安全性和舒适度。
-
公开(公告)号:CN118942140B
公开(公告)日:2025-02-18
申请号:CN202411376935.X
申请日:2024-09-30
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明公开了一种基于时间衰减机制的表情识别方法、装置、设备及介质。该方法包括:基于预设区域检测模型及预设表情识别模型分类处理当前标准化视频帧确定表情信息,并基于预设上肢体关键点检测模型及预设动作识别模型识别处理当前标准化视频帧确定动作信息;基于动作信息与对应表情信息的一致性关系,确定当前标准化视频帧对应的第一强信息度帧或第二强信息度帧;基于时间衰减机制及第一强信息度帧或第二强信息度帧对当前标准化视频帧进行置信度融合处理得到融合表情置信度值,并基于融合表情置信度值确定当前标准化视频帧对应的表情识别结果。通过本发明的技术方案,能够识别出视频序列中的表情类别,提高了表情识别的准确性和鲁棒性。
-
-
-
-
-
-
-
-
-