-
公开(公告)号:CN117037791A
公开(公告)日:2023-11-10
申请号:CN202211565299.6
申请日:2022-12-07
Applicant: 科大讯飞股份有限公司 , 广州市讯飞樽鸿信息技术有限公司
Abstract: 本申请提供了一种基于语音识别的数据处理方法、装置、设备和存储介质,所述方法通过获取目标语音,通过语音转写模型对目标语音进行转写,生成文字文本,对文字文本的语篇结构及谈论对象进行抽取,通过错误检出模型对文字文本进行检测,根据抽取结果及检测结果,判断文字文本是否存在错误数据,提高文字文本中错误数据识别的准确率,从而提高语音识别准确率。
-
公开(公告)号:CN116597047A
公开(公告)日:2023-08-15
申请号:CN202310200510.2
申请日:2023-02-28
Applicant: 科大讯飞股份有限公司 , 广州市讯飞樽鸿信息技术有限公司
IPC: G06T11/60 , G06T11/00 , G06N3/0464 , G06N3/08
Abstract: 本申请公开了一种图片生成方法、装置、设备及可读存储介质。本方案中,首先,获取用户的图片生成请求,图片生成请求中包括用户的至少一个个性化信息;再基于用户的至少一个个性化信息,生成包括与用户的至少一个个性化信息对应的领域元素信息的文本描述信息;最后,基于文本描述信息生成融合有领域元素信息个性化图片,并将个性化图片提供给用户。在本方案中,用户只需输入一些个性化信息,就可以为用户生成包含专业的领域元素信息的文本描述,并生成融合有专业的领域元素信息的个性化图片,该图片生成技术对于专业性较差的用户同样适用,降低了对用户专业性的依赖。
-
公开(公告)号:CN115934910A
公开(公告)日:2023-04-07
申请号:CN202211549638.1
申请日:2022-12-05
Applicant: 科大讯飞股份有限公司 , 广州市讯飞樽鸿信息技术有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/35
Abstract: 本申请公开了一种对话回溯方法、装置、存储介质及设备,该方法包括:首先接收目标用户发出的第一目标对话并确定其对应的第一目标文本;然后根据第一目标文本确定目标用户所处的目标业务场景及包含预设场景意图和预设关键场景信息的目标对话状态,接着接收目标用户发出的第二目标对话并确定其对应的第二目标文本,再根据第二目标文本确定目标用户所处的开放对话场景及包含开放场景意图的开放对话状态;当开放场景意图和预设场景意图不存在冲突时,从开放对话状态切换至目标对话状态进行对话回溯,并根据回溯结果向目标用户反馈回复对话。由于本申请能够在多轮对话中实现不同对话场景和意图之间的切换和回溯,从而提高了回溯效果和用户的交互体验。
-
公开(公告)号:CN116071822A
公开(公告)日:2023-05-05
申请号:CN202310004312.9
申请日:2023-01-03
Applicant: 科大讯飞股份有限公司 , 广州市讯飞樽鸿信息技术有限公司
IPC: G06V40/20 , G06F40/289 , G06V20/40 , G06V10/74 , G06V10/82 , G06N3/0455 , G06N3/09
Abstract: 本申请公开了一种手语识别方法及相关装置、设备、存储介质,手语识别方法包括:获取分句视频帧序列,分句视频帧序列是对手语动作序列进行采集得到,分句视频帧序列中的手语动作所表达内容为一个分句;对分句视频帧序列按照分词进行划分,得到若干分词视频帧序列,分句视频帧序列中的手语动作所表达内容为一个分词;对各分词视频帧序列进行动作识别,得到各分词视频帧序列对应的分词;利用各分词视频帧序列对应的分词,得到分句视频帧序列对应的分句。上述方案,能够提高视频通话沟通效率。
-
公开(公告)号:CN115936024A
公开(公告)日:2023-04-07
申请号:CN202211738470.9
申请日:2022-12-30
Applicant: 科大讯飞股份有限公司 , 广州市讯飞樽鸿信息技术有限公司
IPC: G06F40/58 , G06F40/284
Abstract: 本发明提供一种语音翻译方法、装置、电子设备和存储介质,其中方法包括:获取待翻译的用户语音;基于用户语音中各语种的分词数量,确定所述用户语音对应的语种翻译方向;基于所述语种翻译方向,对所述用户语音进行翻译,得到所述用户语音的翻译文本。本发明提供的方法、装置、电子设备和存储介质,通过在获取到待翻译的用户语音之后,基于用户语音中各语种的分词数量确定语种翻译方向以实现语音翻译,在解决多语种混讲场景下的语种适应问题,减轻用户操作负担,提高语音翻译的灵活性的同时,大大降低了语音翻译的时延,提高了语音翻译的响应速度。
-
公开(公告)号:CN115132167B
公开(公告)日:2025-04-18
申请号:CN202210922652.5
申请日:2022-08-02
Applicant: 科大讯飞股份有限公司
IPC: G10L13/02 , G10L13/08 , G10L13/10 , G10L21/003
Abstract: 本申请公开了一种听障用户语音合成方法、装置、设备及存储介质,在确定目标听障用户的发音质量满足第一发音质量条件时,获取到第一语音合成模型,模型训练时的训练数据以健全人发音数据的音色、文本以及相似听障韵律合成,相似听障韵律为与健全人发音数据的韵律相似的听障用户的发音数据的韵律,基于此训练的模型能够学习到健全人发音的风格。进一步,将模型中韵律编码模块的编码特征固定为目标听障用户的韵律特征,将音色编码模块的编码特征固定为目标听障用户的音色特征,得到的处理后语音合成模型作为目标听障用户的个性化语音合成模型,能够合成个性化语音,且由于模型学习到了健全人的发音风格,使得最终合成的语音更加顺畅、清晰。
-
公开(公告)号:CN114863920A
公开(公告)日:2022-08-05
申请号:CN202210209797.0
申请日:2022-03-04
Applicant: 科大讯飞股份有限公司
IPC: G10L15/18 , H04M1/7243
Abstract: 本申请公开了智能通话方法及相关装置、电子设备、存储介质,其中,智能通话方法包括:获取通话过程中本轮对话的意图;基于所述意图,获取所述本轮对话的对话辅助提示;在通话终端显示所述对话辅助提示。上述方案,能够识别对话的意图并给出对话辅助提示有助于实现更加充分更加全面的交流。
-
公开(公告)号:CN115132167A
公开(公告)日:2022-09-30
申请号:CN202210922652.5
申请日:2022-08-02
Applicant: 科大讯飞股份有限公司
IPC: G10L13/02 , G10L13/08 , G10L13/10 , G10L21/003
Abstract: 本申请公开了一种听障用户语音合成方法、装置、设备及存储介质,在确定目标听障用户的发音质量满足第一发音质量条件时,获取到第一语音合成模型,模型训练时的训练数据以健全人发音数据的音色、文本以及相似听障韵律合成,相似听障韵律为与健全人发音数据的韵律相似的听障用户的发音数据的韵律,基于此训练的模型能够学习到健全人发音的风格。进一步,将模型中韵律编码模块的编码特征固定为目标听障用户的韵律特征,将音色编码模块的编码特征固定为目标听障用户的音色特征,得到的处理后语音合成模型作为目标听障用户的个性化语音合成模型,能够合成个性化语音,且由于模型学习到了健全人的发音风格,使得最终合成的语音更加顺畅、清晰。
-
公开(公告)号:CN115103062A
公开(公告)日:2022-09-23
申请号:CN202210303627.9
申请日:2022-03-24
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种通话管理方法及相关装置、电子设备、系统、存储介质,其中,通话管理方法包括:获取第一通话用户在若干历史通话中涉嫌违法活动的统计数据;基于统计数据满足第一条件,确定第一通话用户为违法用户;获取违法用户的信用数据;响应于信用数据满足第二条件,限制违法用户通话。上述方案,能够有助于提升通话管理的有效性。
-
-
-
-
-
-
-
-