车辆、电机音频数据的生成方法及装置

    公开(公告)号:CN114758662B

    公开(公告)日:2025-02-28

    申请号:CN202210335418.2

    申请日:2022-03-31

    Abstract: 本申请涉及一种车辆、电机音频数据的生成方法及装置。所述方法包括:获取当前采样周期对应的当前车辆工况信息和当前电机音频数据;根据当前车辆工况信息和当前电机音频数据,确定当前采样周期对应的第一合成电机音频数据;如果当前采样周期对应的第一合成电机音频数据与上一个采样周期对应的第二合成电机音频数据不在同一频段,根据当前车辆工况信息、第一合成电机音频数据和第二合成电机音频数据,确定目标过度电机音频数据;将过度电机音频数据拼接至第一合成电机音频数据和第二合成电机音频数据之间,生成目标电机音频数据。将生成目标电机音频数据拼接至不在同一频段的连续声音片段数据之间,可以有效避免出现声音断续以及尖锐声的现象。

    基于对抗样本生成的高保真语音脱敏方法和装置

    公开(公告)号:CN115083426B

    公开(公告)日:2025-02-14

    申请号:CN202210629015.9

    申请日:2022-06-06

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于对抗样本生成技术的高保真语音脱敏方法和装置,属于数据隐私保护领域。通过将受保护者音频输入对抗式生成网络脱敏模型,输出音频能在保持原来语义内容的前提下,改变音频中的声纹特征,进而使得人工智能说话人识别模型无法通过输入音频判断说话者身份,实现脱除原始说话人身份信息的效果。该脱敏模型的训练主要通过最小化对抗式生成网络中的生成器以及鉴别器损失以达到训练目的。在具体应用场景中,说话者可以先将自己的音频经已训练好的脱敏模型处理,而后将生成的音频提供给外界,而不泄露自己的身份,达到保护个人隐私的目的。

    一种跨平台通话及录音方法和装置

    公开(公告)号:CN119254877A

    公开(公告)日:2025-01-03

    申请号:CN202411422184.0

    申请日:2024-10-12

    Inventor: 徐刚

    Abstract: 本申请提供了一种跨平台通话及录音方法和装置,涉及多平台录音技术领域。该方法包括:响应于第一终端设备上联系人进行通话操作的请求,获取用户的当前通话场景;根据当前通话场景,自动切换通话录音到当前通话场景对应的第二终端设备;获取第二终端设备对应的第一音频数据,以对第一音频数据进行预处理操作,得到预处理后的第二音频数据;通过串口协议将第二音频数据发送至预设存储设备,以便于用户进行通话录音。本申请解决了用户在使用不同音频设备时需要手动切换输出和输入源,用户会增加办公负担,另外大量语音通话用户对会议或通话有录音需求,无法及时有效的进行多端设备通话或会议录音的问题。

    音频数据处理方法、装置、电子设备及程序产品

    公开(公告)号:CN119229883A

    公开(公告)日:2024-12-31

    申请号:CN202411391978.5

    申请日:2024-09-30

    Abstract: 本申请提出一种音频数据处理方法、装置、电子设备及程序产品,用于数据接收端,该方法包括:获取第一音频数据的当前帧采样时间,以及当前帧的第一音频数据包含的有效字节数目;第一音频数据是指数据传输顺序被周期性打乱的音频数据;基于当前帧采样时间和有效字节数目确定当前帧的第二音频数据的数据周期;第二音频数据是指与第一音频数据对应,且数据传输顺序正常的音频数据;根据数据周期及数据接收端的本地时钟频率,确定第二音频数据在数据接收端本地时钟下的采样频率。该方法能够快速、准确地实现音频数据的带宽匹配,以便正确提取音频数据。

    一种基于情感迁移和特征插值的说话人匿名化方法

    公开(公告)号:CN119207440A

    公开(公告)日:2024-12-27

    申请号:CN202411285296.6

    申请日:2024-09-13

    Inventor: 邵曦 谭涛

    Abstract: 本发明公开了一种基于情感迁移和特征插值的说话人匿名化方法,包括特征提取、特征插值和语音合成阶段,首先采用了WavLM模型从原始语音信号中提取语音特征。这些特征表示捕捉了输入数据中的多种属性,如语音信号中的语音和文本等特征;然后在情感特征提取阶段,采用wav2vec2‑large‑robust‑12‑ft‑emotion‑msp‑dim模型来提取情绪特征。在特征插值阶段,对表征说话人信息的特征进行重组。最后在语音合成阶段,利用修改后的HIFI‑GAN模型来合成保持情感信息的匿名化语音。本方法利用自监督特征提升了对情绪信息的捕获能力,从而在匿名化的过程中能够在不破坏语音内容的同时更好地维持情绪特征,实现了高质量的说话人匿名化过程。

    一种城乡规划数据处理方法及系统

    公开(公告)号:CN118887965B

    公开(公告)日:2024-12-24

    申请号:CN202411381472.6

    申请日:2024-09-30

    Abstract: 本发明涉及数据处理领域,尤其涉及一种城乡规划数据处理方法及系统,设有若干成组设置噪音监测装置,包括:接收模块,用以收集城乡交界处交通线路内的声音,生成对应的声音数据,过滤模块,用以将声音数据过滤,生成对应的噪音学习模型,处理模块,用以预处理过滤数据,选取若干指标特征对预处理数据进行学习,生成对应的噪音分布图,调整模块,用以接收噪音分布图,计算声音数据的重合度,对噪音来源和过滤模块做出调整措施,在有效提升了噪音识别的准确性的同时,提升了城乡交界处交通线路噪音污染位置识别的准确性,并利用学习模型对城乡交界处交通线路的噪音进行可视化,从而有效提升了城乡交界处交通线路噪音污染位置识别的准确性。

    一种语音识别方法、装置及存储介质

    公开(公告)号:CN112435668B

    公开(公告)日:2024-12-20

    申请号:CN202011228658.X

    申请日:2020-11-06

    Abstract: 本发明公开了一种语音识别方法、装置及存储介质。该方法包括:接收用户输入的语音信号;检测该语音信号是否包含预置命令词,若是,则对该语音信号进行转换处理得到第二语音信号,并进一步检测所述第二语音信号是否包含预置命令词,若是,则执行与预置命令词对应的操作。其中,如果用户输入的语音信号不是预置命令词,经过转换处理之后,其与预置命令词的相似度会下降,更易于被识别为非预置命令词,从而大幅降低了预置命令词识别的错误率。

    乐器音色转换模型构建方法以及乐器音色转换方法

    公开(公告)号:CN114550735B

    公开(公告)日:2024-12-17

    申请号:CN202210225202.0

    申请日:2022-03-09

    Abstract: 本发明实施例提供一种乐器音色转换模型构建方法,包括:通过将第一样本音频向量序列转换为第二样本音频向量序列,再将第二样本音频向量序列转换为输入样本音频向量序列;并通过计算得到的第一损失值和第一分值,更新待训练模型的模型参数,以训练得到乐器音色转换模型;本发明实施例通过第一损失值和第一分支对模型进行训练,训练效率高;且提高了通过上述方法训练得到的乐器音色转换模型的准确率。

Patent Agency Ranking