Patent search ipc:"G10L21/007" Page 1

1.

发明授权
车辆、电机音频数据的生成方法及装置有权

公开(公告)号：CN114758662B

公开(公告)日：2025-02-28

申请号：CN202210335418.2

申请日：2022-03-31

Applicant: 上汽通用五菱汽车股份有限公司

Inventor： 兰斌旋 , 梁钰迎 , 刘新忠 , 黄启成 , 梁婷婷

IPC: G10L21/007 , G10L21/013

Abstract: 本申请涉及一种车辆、电机音频数据的生成方法及装置。所述方法包括：获取当前采样周期对应的当前车辆工况信息和当前电机音频数据；根据当前车辆工况信息和当前电机音频数据，确定当前采样周期对应的第一合成电机音频数据；如果当前采样周期对应的第一合成电机音频数据与上一个采样周期对应的第二合成电机音频数据不在同一频段，根据当前车辆工况信息、第一合成电机音频数据和第二合成电机音频数据，确定目标过度电机音频数据；将过度电机音频数据拼接至第一合成电机音频数据和第二合成电机音频数据之间，生成目标电机音频数据。将生成目标电机音频数据拼接至不在同一频段的连续声音片段数据之间，可以有效避免出现声音断续以及尖锐声的现象。

2.

发明授权
基于对抗样本生成的高保真语音脱敏方法和装置有权

公开(公告)号：CN115083426B

公开(公告)日：2025-02-14

申请号：CN202210629015.9

申请日：2022-06-06

Applicant: 浙江大学

Inventor： 陈艳姣 , 徐文渊 , 陈骁孚 , 滕飞

IPC: G10L21/007 , G10L25/48 , G10L25/27

Abstract: 本发明公开了一种基于对抗样本生成技术的高保真语音脱敏方法和装置，属于数据隐私保护领域。通过将受保护者音频输入对抗式生成网络脱敏模型，输出音频能在保持原来语义内容的前提下，改变音频中的声纹特征，进而使得人工智能说话人识别模型无法通过输入音频判断说话者身份，实现脱除原始说话人身份信息的效果。该脱敏模型的训练主要通过最小化对抗式生成网络中的生成器以及鉴别器损失以达到训练目的。在具体应用场景中，说话者可以先将自己的音频经已训练好的脱敏模型处理，而后将生成的音频提供给外界，而不泄露自己的身份，达到保护个人隐私的目的。

3.

发明公开
一种跨平台通话及录音方法和装置审中-实审

公开(公告)号：CN119254877A

公开(公告)日：2025-01-03

申请号：CN202411422184.0

申请日：2024-10-12

Applicant: 武汉赛思云科技有限公司

Inventor： 徐刚

IPC: H04M1/656 , H04M3/42 , G10L21/0208 , G10L21/007

Abstract: 本申请提供了一种跨平台通话及录音方法和装置，涉及多平台录音技术领域。该方法包括：响应于第一终端设备上联系人进行通话操作的请求，获取用户的当前通话场景；根据当前通话场景，自动切换通话录音到当前通话场景对应的第二终端设备；获取第二终端设备对应的第一音频数据，以对第一音频数据进行预处理操作，得到预处理后的第二音频数据；通过串口协议将第二音频数据发送至预设存储设备，以便于用户进行通话录音。本申请解决了用户在使用不同音频设备时需要手动切换输出和输入源，用户会增加办公负担，另外大量语音通话用户对会议或通话有录音需求，无法及时有效的进行多端设备通话或会议录音的问题。

4.

发明公开
音频数据处理方法、装置、电子设备及程序产品审中-实审

公开(公告)号：CN119229883A

公开(公告)日：2024-12-31

申请号：CN202411391978.5

申请日：2024-09-30

Applicant: 浙江地芯引力科技有限公司

Inventor： 崔小名 , 侯宝川 , 秦文辉 , 刘志刚 , 虞少平

IPC: G10L21/007 , G10L25/51 , H04L67/568

Abstract: 本申请提出一种音频数据处理方法、装置、电子设备及程序产品，用于数据接收端，该方法包括：获取第一音频数据的当前帧采样时间，以及当前帧的第一音频数据包含的有效字节数目；第一音频数据是指数据传输顺序被周期性打乱的音频数据；基于当前帧采样时间和有效字节数目确定当前帧的第二音频数据的数据周期；第二音频数据是指与第一音频数据对应，且数据传输顺序正常的音频数据；根据数据周期及数据接收端的本地时钟频率，确定第二音频数据在数据接收端本地时钟下的采样频率。该方法能够快速、准确地实现音频数据的带宽匹配，以便正确提取音频数据。

5.

发明公开
用于自动定制语音滤波的系统和方法审中-实审

公开(公告)号：CN119213448A

公开(公告)日：2024-12-27

申请号：CN202380040619.2

申请日：2023-05-01

Applicant: 索尼互动娱乐有限责任公司 , 索尼互动娱乐股份有限公司

Inventor： J·张 , C·比安 , S·卡里米 , S·克里希那穆尔蒂

IPC: G06N20/00 , G10L15/02 , G10L15/14 , G10L17/04 , G10L17/26 , G10L21/007 , H04S7/00 , G10L15/07 , G10L21/0216 , G10L21/0264 , G10L25/27

Abstract: 描述了用于音频处理的系统和方法。音频处理系统接收包括语音样本的音频内容。所述音频处理系统分析语音样本以识别语音样本中的声音类型。所述声音类型对应于语音样本中至少一个指定字符的发音。所述音频处理系统至少部分地通过对语音样本进行滤波以修改声音类型来生成经滤波的语音样本。所述音频处理系统输出所述经滤波的语音样本。

6.

发明公开
一种基于情感迁移和特征插值的说话人匿名化方法审中-实审

公开(公告)号：CN119207440A

公开(公告)日：2024-12-27

申请号：CN202411285296.6

申请日：2024-09-13

Applicant: 南京邮电大学

Inventor： 邵曦 , 谭涛

IPC: G10L21/007 , G10L25/30 , G10L25/63

Abstract: 本发明公开了一种基于情感迁移和特征插值的说话人匿名化方法，包括特征提取、特征插值和语音合成阶段，首先采用了WavLM模型从原始语音信号中提取语音特征。这些特征表示捕捉了输入数据中的多种属性，如语音信号中的语音和文本等特征；然后在情感特征提取阶段，采用wav2vec2‑large‑robust‑12‑ft‑emotion‑msp‑dim模型来提取情绪特征。在特征插值阶段，对表征说话人信息的特征进行重组。最后在语音合成阶段，利用修改后的HIFI‑GAN模型来合成保持情感信息的匿名化语音。本方法利用自监督特征提升了对情绪信息的捕获能力，从而在匿名化的过程中能够在不破坏语音内容的同时更好地维持情绪特征，实现了高质量的说话人匿名化过程。

7.

发明授权
一种城乡规划数据处理方法及系统有权质押

公开(公告)号：CN118887965B

公开(公告)日：2024-12-24

申请号：CN202411381472.6

申请日：2024-09-30

Applicant: 浙江杭望空间规划设计发展有限公司

Inventor： 陆忠海 , 张吉云 , 项凤琴 , 张芳 , 田毅清

IPC: G10L21/007 , G10L21/0232 , G10L21/0264 , G10L21/0332 , G10L21/10 , G10L25/27 , G06Q50/26

Abstract: 本发明涉及数据处理领域，尤其涉及一种城乡规划数据处理方法及系统，设有若干成组设置噪音监测装置，包括：接收模块，用以收集城乡交界处交通线路内的声音，生成对应的声音数据，过滤模块，用以将声音数据过滤，生成对应的噪音学习模型，处理模块，用以预处理过滤数据，选取若干指标特征对预处理数据进行学习，生成对应的噪音分布图，调整模块，用以接收噪音分布图，计算声音数据的重合度，对噪音来源和过滤模块做出调整措施，在有效提升了噪音识别的准确性的同时，提升了城乡交界处交通线路噪音污染位置识别的准确性，并利用学习模型对城乡交界处交通线路的噪音进行可视化，从而有效提升了城乡交界处交通线路噪音污染位置识别的准确性。

8.

发明授权
基于自适应语音强度调节的智能电话装置有权

公开(公告)号：CN113963708B

公开(公告)日：2024-12-24

申请号：CN202111221609.8

申请日：2021-10-20

Applicant: 中国电子科技集团公司第三十研究所

Inventor： 邱春毓 , 廖蓉晖 , 杨龙剑 , 许志强 , 杨宏 , 康敏 , 李鉴

IPC: G10L21/007 , G10L25/27 , G06N20/00

Abstract: 本发明公开了一种基于自适应语音强度调节的智能电话装置，包括语音模块和电源模块，语音模块与电源模块连接，以及设置有语音强度舒适区学习模块和智能自适应语音强度模块的处理器，该处理器与语音模块连接；本发明解决了电话通话中由于距离变化等原因造成的语音强度不稳定问题，持续学习形成语音舒适区，利用智能自适应语音强度调节方法对语音进行积累学习，对语音强度进行智能调整，提升电话用户体验。

9.

发明授权
一种语音识别方法、装置及存储介质

公开(公告)号：CN112435668B

公开(公告)日：2024-12-20

申请号：CN202011228658.X

申请日：2020-11-06

Applicant: 联想(北京)有限公司

Inventor： 张琛雨 , 汪俊杰 , 张银平 , 郭莉莉

IPC: G10L15/26 , G10L21/0208 , G10L15/14 , G10L21/007

Abstract: 本发明公开了一种语音识别方法、装置及存储介质。该方法包括：接收用户输入的语音信号；检测该语音信号是否包含预置命令词，若是，则对该语音信号进行转换处理得到第二语音信号，并进一步检测所述第二语音信号是否包含预置命令词，若是，则执行与预置命令词对应的操作。其中，如果用户输入的语音信号不是预置命令词，经过转换处理之后，其与预置命令词的相似度会下降，更易于被识别为非预置命令词，从而大幅降低了预置命令词识别的错误率。

10.

发明授权
乐器音色转换模型构建方法以及乐器音色转换方法有权

公开(公告)号：CN114550735B

公开(公告)日：2024-12-17

申请号：CN202210225202.0

申请日：2022-03-09

Applicant: 平安科技(深圳)有限公司

Inventor： 张剑 , 蒋慧军 , 徐伟 , 陈又新 , 肖京

IPC: G10L21/007 , G10L25/30 , G10L25/48

Abstract: 本发明实施例提供一种乐器音色转换模型构建方法，包括：通过将第一样本音频向量序列转换为第二样本音频向量序列，再将第二样本音频向量序列转换为输入样本音频向量序列；并通过计算得到的第一损失值和第一分值，更新待训练模型的模型参数，以训练得到乐器音色转换模型；本发明实施例通过第一损失值和第一分支对模型进行训练，训练效率高；且提高了通过上述方法训练得到的乐器音色转换模型的准确率。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification