-
公开(公告)号:CN115775260A
公开(公告)日:2023-03-10
申请号:CN202211440711.1
申请日:2022-11-17
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种交互权切换方法、装置、电子设备和存储介质,其中方法包括:确定交互场景下的视频数据,以及视频数据指示的初始交互人员;基于视频数据,确定交互场景下的各个人员的唇部数据;在检测到唤醒词的情况下,基于唤醒词对应的语音数据,以及各个人员的唇部数据,确定输出唤醒词的潜在交互人员,在潜在交互人员和初始交互人员为不同人员的情况下,基于潜在交互人员的身份标号,对初始交互人员进行交互权切换,实现了多人场景下的交互权切换,克服了传统方案中多人交互时,交互权难以转换的缺陷,能够对各个人员进行稳定追踪,实现了潜在交互人员的精准定位,以及交互权的稳步切换。
-
公开(公告)号:CN115665602A
公开(公告)日:2023-01-31
申请号:CN202211248585.X
申请日:2022-10-12
Applicant: 科大讯飞股份有限公司
IPC: H04R1/08
Abstract: 本发明提供一种回声消除方法、装置、会议系统、电子设备和存储介质,其中方法包括:获取各终端的参考信号,以及各终端中任一终端的麦克信号;对各终端的参考信号和该终端的麦克信号分别进行特征提取,并基于特征提取所得的各终端的参考信号特征和该终端的麦克信号特征,确定回声信号特征;基于回声信号特征,对该终端的麦克信号进行回声消除,得到该终端的回声消除信号,克服了传统的回声消除方法无法针对于多人会议场景进行回声消除的缺陷,同时,实现了终端音频信号采集和播放的自动管理,规避了手动控制不便的问题,提升了会议过程的稳定性。
-
公开(公告)号:CN115588426A
公开(公告)日:2023-01-10
申请号:CN202211193243.2
申请日:2022-09-28
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别模型的训练方法、语音识别方法及相关产品。该语音识别模型的训练方法包括:根据通用语音识别模型的基础结构裁剪得到子模型;通过第一语音数据和子模型构建待训练的语音识别模型;第一语音数据包括多种领域分别对应的领域语音数据;通过第一语音数据对待训练的语音识别模型进行训练,训练结束得到用于识别多种领域的领域语音数据的目标模型。以参数量较小的子模型构建并训练同样小参数量的模型,而无需对参数量较大的通用语音识别模型进行处理,即可通过精简的过程实现模型训练,减小训练代价。由于第一语音数据包括多种领域分别对应的领域语音数据,因此,训练出的目标模型可以实现对多种领域的领域语音数据的识别。
-
公开(公告)号:CN115497460A
公开(公告)日:2022-12-20
申请号:CN202211096150.8
申请日:2022-09-08
Applicant: 科大讯飞股份有限公司
IPC: G10L15/06 , G10L15/02 , G10L15/08 , G10L13/08 , G06N20/00 , G06N7/00 , G06N3/08 , G06F40/279 , G06F16/33
Abstract: 本申请提供了音频识别方法、模型的训练方法、装置、设备及存储介质,具体实现方案为:在第一音频数据集中确定低频三音素;基于低频三音素,从预设语料库中确定包含低频三音素的低频文本;基于低频文本训练音频识别模型。根据本申请的技术方案,能够有效提升训练数据中的低频数据内容的多样性和准确性。
-
公开(公告)号:CN114242065A
公开(公告)日:2022-03-25
申请号:CN202111674783.8
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供了一种语音唤醒方法及装置、语音唤醒模块的训练方法及装置。该语音唤醒方法包括:获取待识别语音信号,其中,待识别语音信号包括唤醒词;利用声学模型对待识别语音信号进行唤醒词识别,获得唤醒词识别结果,其中,声学模型包括整词节点,整词节点以唤醒词的词向量为权重;根据唤醒词识别结果进行语音唤醒,能够提高唤醒效果。
-
公开(公告)号:CN111583909A
公开(公告)日:2020-08-25
申请号:CN202010418728.1
申请日:2020-05-18
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种语音识别方法、装置、设备及存储介质,本申请配置有热词库,在对待识别语音进行识别过程,基于待识别语音及热词库,确定当前解码时刻所需的音频相关特征,由于音频相关特征确定过程利用了热词信息,如果当前解码时刻的语音片段中包含某个热词,则确定的音频相关特征中能够包含该热词对应的完整音频信息,进一步基于该音频相关特征从热词库中确定当前解码时刻所需的热词相关特征,热词相关特征能够准确表示当前解码时刻的语音片段是否包含热词以及具体包含哪个热词,最终基于音频相关特征和热词相关特征,确定待识别语音在当前解码时刻的识别结果,该识别结果对热词的识别更加准确。
-
公开(公告)号:CN106919977A
公开(公告)日:2017-07-04
申请号:CN201510998704.7
申请日:2015-12-25
Applicant: 科大讯飞股份有限公司
IPC: G06N3/04
CPC classification number: G06N3/0445
Abstract: 本发明公开了一种前馈序列记忆神经网络及其构建方法和系统,该前馈序列记忆神经网络包括:至少三层的多个节点,第一层为输入层,最后一层为输出层,其它位于输入层和输出层之间的多个节点组成至少一个隐层,每一个隐层都包含一个记忆块,隐层与记忆块共同构成双向前馈序列记忆神经网络FSMN层,该记忆块用于存储每帧输入信息的历史信息和未来信息。由于该双向FSMN层包括记忆块,通过该记忆块存储每帧输入信息的历史信息和未来信息,可以利用训练数据的长时信息,并且该过程无需通过双向循环反馈,可以保证信息处理效率。
-
公开(公告)号:CN308905253S
公开(公告)日:2024-10-25
申请号:CN202330615329.9
申请日:2023-09-20
Applicant: 科大讯飞股份有限公司
Abstract: 1.本外观设计产品的名称:显示屏幕面板的智能助手交互图形用户界面。
2.本外观设计产品的用途:用于交互和显示。
3.本外观设计产品的设计要点:在于图形用户界面。
4.最能表明设计要点的图片或照片:界面变化状态图1。
5.惯常设计,省略显示屏幕面板的其他视图。
6.图形用户界面的用途:用于智能助手的问答以及通过智能助手的识别完成信息生成。
7.图形用户界面的人机交互方式:在主视图中左侧底部的对话框中输入“运行”指令并发送,跳转至界面变化状态图1;点击界面变化状态图1中左侧底部的对话框并输入信息内容(例如“请根据xxxx表分析投递量的月度趋势情况”),则如界面变化状态图2所示;根据界面变化状态图2中的提示“按(enter)发送”进行操作发送输入内容,跳转至界面变化状态图3,各界面中的“xxx”为文字内容。
8.其他需要说明的情形其他说明:显示用的载体设备为现有设计,该显示屏幕面板可以应用于计算机、笔记本电脑、平板电脑、台式电脑、手机、智能手机。
-
-
-
-
-
-
-