-
公开(公告)号:CN115691504A
公开(公告)日:2023-02-03
申请号:CN202211386465.6
申请日:2022-11-07
申请人: 欣大电气有限公司
IPC分类号: G10L15/26 , G10L15/20 , G10L21/0208 , G10L21/043 , G10L21/007 , H04L65/60 , H04L65/403
摘要: 本发明涉及通讯系统用信号处理系统,先录入原始音频信号,并显示所述原始音频信号的录音轨迹;所述录音轨迹用于指示所述原始音频信号的时间轴;对降噪音频信号进行速度识别,将降噪音频信号中速度较高的片段的两端在所述录音轨迹上分别自动添加一个分割标记,所述分割标记用于将所述录音轨迹分割为至少两个轨迹分段,从而得到目标音频信号,并将降噪音频信号中的两分割标记之间的音频信号删除;将目标音频信号通过音频变速器进行降速处理,得到降速音频信号;将降速后的信号插入到原始音频信号中两分割标记之间,得到完整降速音频信号,本发明具有在联网会议过程中具有更加精确得进行会议发言和讲话内容实时自动记录,便于后续查阅的技术效果。
-
公开(公告)号:CN111627422B
公开(公告)日:2022-07-12
申请号:CN202010405266.X
申请日:2020-05-13
申请人: 广州国音智能科技有限公司
IPC分类号: G10L15/02 , G10L21/043 , G10L25/51
摘要: 本发明公开了一种语音加速检测方法、装置、设备及可读存储介质,所述语音加速检测方法通过对待检测音频中的音素进行识别,并得到每一音素的持续时长,为后续的判断提供了可量化的实际依据;通过总体判断待检测音频中所有音素的持续时长是否满足预设条件,能够准确地对待检测音频的音素出现速度进行界定;通过最终将满足预设条件的待检测音频判定为加速音频,并对其进行降速处理后再识别,提高了加速语音的内容识别的效率与准确性。
-
公开(公告)号:CN114679512A
公开(公告)日:2022-06-28
申请号:CN202210308571.6
申请日:2022-03-25
申请人: 深圳禾苗通信科技有限公司
IPC分类号: H04M1/72433 , H04M1/72448 , G10L21/043 , G10L25/78
摘要: 本发明提供了一种老人智能手机通话实时降速方法及装置,包括,对从另一台手机经无线通信链路传输过来的原始音频数据以预设的频率进行音频数据采样;对采样的音频数据通过基于时域的语音变速不变调算法按照预设的降速速率进行降速处理;将降速处理的音频数据通过老人智能手机的听筒进行实时播放。本发明的有益效果在于:基于时域的语音变速不变调算法,对老人智能手机进行实时通话降速,能够利于老人与其他人进行通话时,听得更加仔细清晰,提高老人手机通话的使用体验。
-
公开(公告)号:CN114360512A
公开(公告)日:2022-04-15
申请号:CN202210062106.9
申请日:2022-01-19
申请人: 杭州网易云音乐科技有限公司
IPC分类号: G10L15/02 , G10L15/04 , G10L21/043 , G10L25/30
摘要: 本公开的实施方式涉及数据处理技术领域,更具体地,涉及音频处理方法、装置、存储介质和电子设备。所述音频处理方法包括:提取原始音频的每个音频帧的声学特征;将所述声学特征输入神经网络模型,获得所述原始音频的各音频帧属于每种音频类型的概率序列;其中,所述神经网络模型用于预测每个所述音频帧属于各种所述音频类型的概率;根据所述概率序列对所述原始音频进行分段,获得所述原始音频中属于对应的音频类型的音频段。本公开能够自音频中高效、准确地识别出不同类型的音频段,以供针对某些特定类型的音频段进行处理,并且还能够智能地对指定类型的音频段进行变速播放,提升用户的使用体验,满足用户的个性化使用需求。
-
公开(公告)号:CN114067821A
公开(公告)日:2022-02-18
申请号:CN202010768877.0
申请日:2020-08-03
申请人: 阿里巴巴集团控股有限公司
IPC分类号: G10L21/0208 , G10L21/0264 , G10L21/043 , G10L25/60 , G10L25/84 , G10L25/87 , G10L15/05 , G10L19/24
摘要: 本申请实施例提供了一种语音处理方法、装置、设备和存储介质,所述方法包括:获取待处理语音数据;对所述待处理语音数据中的音频帧进行噪声检测;若确定所述音频帧为噪声帧,则对所述音频帧进行噪声消除并输出;从而实现消除瞬时噪声。
-
公开(公告)号:CN113380239A
公开(公告)日:2021-09-10
申请号:CN202110821913.X
申请日:2021-07-20
申请人: 北京百度网讯科技有限公司
发明人: 赵情恩
IPC分类号: G10L15/06 , G10L15/26 , G10L15/16 , G10L15/02 , G10L15/20 , G10L21/0208 , G10L21/043 , G06N3/04 , G06N3/08
摘要: 本公开提供了一种语音识别模型的训练方法,涉及人工智能领域,尤其涉及语音识别和自然语言处理领域。具体实现方案为:上述语音识别模型包括流式语音识别模型和非流式语音识别模型,上述方法包括:使用上述流式语音识别模型,基于样本语音的特征序列以及上述特征序列中各个特征的上文特征生成第一文本;使用上述非流式语音识别模型,基于上述样本语音的特征序列以及上述特征序列中各个特征的上文特征和下文特征生成第二文本;基于上述第一文本计算第一损失,并基于上述第二文本计算第二损失;以及根据上述第一损失和上述第二损失调整上述流式语音识别模型的参数。本公开还提供了一种语音识别方法、装置和设备。
-
公开(公告)号:CN113314095A
公开(公告)日:2021-08-27
申请号:CN202110496312.6
申请日:2021-05-07
申请人: 深圳传音控股股份有限公司
发明人: 刘欢
IPC分类号: G10L13/047 , G10L13/033 , G10L13/08 , G10L21/043 , G10L25/63 , G10L15/22 , G06F3/16
摘要: 本申请公开了一种处理方法、移动终端及存储介质,其中,该方法包括:获取目标语速等级;控制人机交互应用按照该目标语速等级进行语音播报。采用本申请所提出的方法,可以实现语音播报的语速调节的自动化和智能化。
-
公开(公告)号:CN112345976A
公开(公告)日:2021-02-09
申请号:CN202011209020.1
申请日:2020-11-03
申请人: 中船九江精达科技股份有限公司
发明人: 徐小宗
IPC分类号: G01R31/58 , G10L21/0316 , G10L21/043
摘要: 本发明属于工业自动化技术领域,具体涉及一种用于导电滑环环路识别的语音播报装置。本发明包括主箱体和通过导线连接在主箱体上的接线端子;主箱体包括壳体、安装在壳体上的电路板以及通过导线连接在电路板上的接触表笔;本发明采用预编号的形式,先对输入端的导线进行120以内的编号并利用夹线端子进行夹持,然后用接触表笔对导电滑环输出端的每一导线进行点触,每点触一条导线,本发明装置即可实时播报其输入端对应的线号,达到即测即报,准确播报,无错报漏报的效果。可以很好的解决传统测量方式的繁琐性和不确定性,极大地提高了装配人员的工作效率。且本发明的体积小、质量轻,使用方便。
-
公开(公告)号:CN111627422A
公开(公告)日:2020-09-04
申请号:CN202010405266.X
申请日:2020-05-13
申请人: 广州国音智能科技有限公司
IPC分类号: G10L15/02 , G10L21/043 , G10L25/51
摘要: 本发明公开了一种语音加速检测方法、装置、设备及可读存储介质,所述语音加速检测方法通过对待检测音频中的音素进行识别,并得到每一音素的持续时长,为后续的判断提供了可量化的实际依据;通过总体判断待检测音频中所有音素的持续时长是否满足预设条件,能够准确地对待检测音频的音素出现速度进行界定;通过最终将满足预设条件的待检测音频判定为加速音频,并对其进行降速处理后再识别,提高了加速语音的内容识别的效率与准确性。
-
公开(公告)号:CN105741852B
公开(公告)日:2020-07-24
申请号:CN201410757585.1
申请日:2014-12-11
申请人: 司法鉴定科学研究院
IPC分类号: G10L21/043
摘要: 本发明公开了一种注意力自适应音频时域调整方法,其中,包括如下步骤:步骤a:实时视频中用户头部三维运动参数计算,包括初始化和运动参数计算;步骤b:初始化过程,检测正面人脸,选择具有最大面积的人脸作为初始化对象;步骤c:运动参数计算中,使用图像注册方法计算头部三维运动参数,包括俯仰角pitch、偏航角yaw和横滚角roll,标记为τ(pitch,yaw,roll);步骤d:参数τ通过函数F1(τ)转换成注意力表征参数α;步骤e:参数α通过函数F2(α)转换成音频信号时域控制参数β;步骤f:依据音频信号时域控制参数β调整音频信号播放速度。本发明的有益效果是:提供更合理更人性化的语音信息获取方法,具有良好的人机交互合理性和人性化设计特征。
-
-
-
-
-
-
-
-
-