-
公开(公告)号:CN113990286B
公开(公告)日:2024-11-19
申请号:CN202111272328.5
申请日:2021-10-29
Applicant: 北京大学深圳研究院
Abstract: 本发明涉及语音合成技术,揭露了一种语音合成方法,包括:获取待合成文本,将待合成文本转化为基础音频数据;利用预训练的情感识别模型对待合成文本进行情感识别,得到所述待合成文本的情感类型;利用语义分析模型识别待合成文本的所属角色;从的语音区块链节点中查询所属角色及所述情感类型对应的发音参数;将所述发音参数和所述基础语音数据输入至音频合成器进行合成,得到情感音频数据。其中,本发明构建语音区块链节点来存储发音参数,涉及了区块链技术。本发明还提出一种语音合成装置、电子设备以及存储介质。本发明可以解决合成的语音机械而呆板的问题。
-
公开(公告)号:CN112735393B
公开(公告)日:2023-11-24
申请号:CN202011587781.0
申请日:2020-12-29
Applicant: 深港产学研基地(北京大学香港科技大学深圳研修院) , 北京大学深圳研究院
IPC: G10L15/16 , G10L15/22 , G10L15/26 , G10L15/28 , G06F3/0488
Abstract: 本发明公开了一种AR/MR设备语音识别的方法和装置及系统。所述方法包括:在AR/MR设备的虚拟视场中显示一投射屏幕和一虚拟屏幕,投射屏幕是将智能手持设备的显示屏幕投射到虚拟视场中形成的;在智能手持设备的显示屏幕上显示一语音识别功能界面;根据用户在智能手持设备语音识别功能界面的操作,进行语音录入和语音识别,将识别出的多个候选结果显示在虚拟屏幕上,对多个候选结果进行选择和确认。本发明利用AR/MR更加方面、更加清晰的显示语音识别的多个候选结果,不会影响智能手持设备本身的应用界面;通过语音识别功能界面进行触摸滑动,可以更加方便直观的选择候选结果,提高了操作便捷性,可以实现手不离设备的操作和单手操作。
-
公开(公告)号:CN106228975A
公开(公告)日:2016-12-14
申请号:CN201610809985.1
申请日:2016-09-08
Applicant: 康佳集团股份有限公司 , 北京大学深圳研究院
CPC classification number: G10L15/01 , G10L15/30 , H04L67/1002 , H04M1/72522
Abstract: 本发明公开一种移动终端的语音识别系统及方法,其移动终端的语音识别系统包括移动终端和服务器端。其中,移动终端包括:语音采集模块、移动终端通信模块、用户行为采集模块、移动终端语音识别模块、结果比较模块和结果输出模块;服务器端包括:服务器端通信模块、服务器端语音识别模块、后处理模块和语言模型生成模块。所述移动终端通过移动终端语音识别模块对用户的语音进行识别,同时所述服务器端通过服务器端语音识别模块对用户的语音进行识别,所述结果比较模块接收移动终端和服务器端的识别结果并进行比较,将最终语音识别结果发送到结果输出模块,结果输出模块根据最终语音识别结果执行相应操作,为用户智能控制移动终端带来了方便。
-
公开(公告)号:CN119229877A
公开(公告)日:2024-12-31
申请号:CN202411143183.2
申请日:2024-08-20
Abstract: 本发明公开了一种说话人验证模型训练方法、装置、介质及设备,所述方法包括:对获取的语音音频数据进行波形提取,得到语音音频数据对应的音频波形数据;将所述音频波形数据输入至预设分类模型中,以通过所述预设分类模型输出所述语音音频数据对应的预测标签;根据语音音频数据对应的防伪标签和预测标签,确定所述预设分类模型的损失值;通过所述损失值对所述预设分类模型进行参数调整,得到说话人验证模型。本发明采取监督学习的方式利用真实的防伪标签对模型的预测标签进行辅助判定,利用最小化输出和真实标签之间的误差来训练整个模型,提高了训练效率降低了成本。
-
公开(公告)号:CN112883183B
公开(公告)日:2022-09-27
申请号:CN202110301600.1
申请日:2021-03-22
Applicant: 北京大学深圳研究院 , 深港产学研基地(北京大学香港科技大学深圳研修院)
IPC: G06F16/332 , G06F16/33 , G06F16/338 , G06F16/35
Abstract: 本发明公开了一种构建多分类模型的方法、智能客服方法和相关装置及系统。构建多分类模型的方法包括:对已标注标签的多轮对话进行预处理得到历史标签流;将历史标签流、当前轮用户请求输入词嵌入层,转换为第一词向量和第二词向量;将第一词向量和第二词向量输入编码层,经不同的编码器进行编码和特征提取,得到标签流特征和当前轮请求特征;将标签流特征和当前轮请求特征输入交互层进行交互,输出对历史信息敏感的用户请求特征;将交互层的输出特征输入分类器进行分类,训练得到用于智能客服系统的多分类模型。本发明使用多个编码器,提高了特征提取能力;使用历史标签流取代文本数据,能够减少噪声;使用多分类模型,有利于提升系统鲁棒性。
-
公开(公告)号:CN114242041A
公开(公告)日:2022-03-25
申请号:CN202111503269.8
申请日:2021-12-10
Applicant: 北京大学深圳研究院 , 深圳市卫生健康发展研究和数据管理中心
Abstract: 本发明公开了一种语音实时转写录入方法和装置。方法包括:实时识别当前输入的语音;当识别出前k个词后,与句式库中预设句子的前k个词进行匹配,得到相匹配的m个句子;显示所述m个句子,所述m个句子的前i‑1个词均相同,且至少第i个词不同,且i‑1≥k;实时识别继续输入的语音,得到p个词;如果所述p个词与其中某个句子的第i至i+p‑1个词相同,则筛选出该句子作为目标句子;显示并输出所述目标句子的全部或者前i+p‑1个词。本发明方案中,不需要逐字逐句的进行语音输入,而是输入几个关键词即可达到语音输入整个句子的目的。在识别某些领域的专用表达的时候,可以减少语音输入的工作量,提高语音录入的效率。
-
公开(公告)号:CN112735393A
公开(公告)日:2021-04-30
申请号:CN202011587781.0
申请日:2020-12-29
Applicant: 深港产学研基地(北京大学香港科技大学深圳研修院) , 北京大学深圳研究院
IPC: G10L15/16 , G10L15/22 , G10L15/26 , G10L15/28 , G06F3/0488
Abstract: 本发明公开了一种AR/MR设备语音识别的方法和装置及系统。所述方法包括:在AR/MR设备的虚拟视场中显示一投射屏幕和一虚拟屏幕,投射屏幕是将智能手持设备的显示屏幕投射到虚拟视场中形成的;在智能手持设备的显示屏幕上显示一语音识别功能界面;根据用户在智能手持设备语音识别功能界面的操作,进行语音录入和语音识别,将识别出的多个候选结果显示在虚拟屏幕上,对多个候选结果进行选择和确认。本发明利用AR/MR更加方面、更加清晰的显示语音识别的多个候选结果,不会影响智能手持设备本身的应用界面;通过语音识别功能界面进行触摸滑动,可以更加方便直观的选择候选结果,提高了操作便捷性,可以实现手不离设备的操作和单手操作。
-
公开(公告)号:CN107808011A
公开(公告)日:2018-03-16
申请号:CN201711155288.X
申请日:2017-11-20
CPC classification number: G06F17/30705 , G06K9/6269
Abstract: 本申请涉及一种信息的分类抽取方法、装置、计算机设备和存储介质,所述方法包括:获取公告信息,利用所述公告信息生成多个文本块;获取分类器,利用所述分类器对多个文本块进行分类,对分类后的文本块添加类别标签;根据所述类别标签对分类后的文本块进行分割,得到多个分割块;对多个类别标签对应的分割块进行筛选;计算与类别标签对应的筛选出的分割块之间的相关性,根据所述相关性对筛选出的分割块进行抽取;利用抽取到的分割块组成抽取结果信息。采用本方法能够提高信息抽取的效率。
-
公开(公告)号:CN106338711A
公开(公告)日:2017-01-18
申请号:CN201610760099.4
申请日:2016-08-30
Applicant: 康佳集团股份有限公司 , 北京大学深圳研究院
IPC: G01S3/80
Abstract: 本发明公开了一种基于智能设备的语音定向方法及系统,方法包括:智能设备开启后,实时获取语音信号;当智能设备检测到语音信号时,获取智能设备的当前前景图像,根据当前前景图像获取声源方向的候选方向;智能设备根据声源方向的候选方向通过定位算法计算后,根据计算结果定位语音信号的声源方向。本发明结合图像采集计算预先获取语音信号的候选方向,通过算法对候选方向进行验算,获取最佳的声源方向,减少了计算的复杂度,提高了语音信号的定位效率。
-
公开(公告)号:CN113990286A
公开(公告)日:2022-01-28
申请号:CN202111272328.5
申请日:2021-10-29
Applicant: 北京大学深圳研究院
Abstract: 本发明涉及语音合成技术,揭露了一种语音合成方法,包括:获取待合成文本,将待合成文本转化为基础音频数据;利用预训练的情感识别模型对待合成文本进行情感识别,得到所述待合成文本的情感类型;利用语义分析模型识别待合成文本的所属角色;从的语音区块链节点中查询所属角色及所述情感类型对应的发音参数;将所述发音参数和所述基础语音数据输入至音频合成器进行合成,得到情感音频数据。其中,本发明构建语音区块链节点来存储发音参数,涉及了区块链技术。本发明还提出一种语音合成装置、电子设备以及存储介质。本发明可以解决合成的语音机械而呆板的问题。
-
-
-
-
-
-
-
-
-