-
公开(公告)号:CN119418714A
公开(公告)日:2025-02-11
申请号:CN202411485954.6
申请日:2024-10-23
Applicant: 科大讯飞股份有限公司
IPC: G10L21/10 , G10L21/16 , G10L21/057 , G10L25/63 , G06V40/20 , G06V40/16 , G06N3/0455 , G06N3/098 , G06F18/24 , G10L21/06
Abstract: 本申请提出一种手语生成方法、装置、电子设备、存储介质及产品,该方法对说话人的语音音频中的每帧音频帧进行情感分类,确定语音音频对应的情感特征序列;基于语音音频和情感特征序列,对说话人动作图片帧中的说话人面部动作和手部动作进行调整,生成语音音频对应的说话人手语动作图片序列。采用本申请的技术方案,能够将语音音频结合语音音频的情感特征对说话人动作图片帧中的说话人面部动作和手部动作进行调整,使得说话人的手语动作和面部表情具有情感特征,提高了手语生成的情感度。另外,说话人手语动作图片序列中的说话人面部动作和手部动作的风格与听障人士的手语表达风格相同,提高了手语生成的准确度,更方便听障人士的理解。
-
公开(公告)号:CN118132027A
公开(公告)日:2024-06-04
申请号:CN202410176311.7
申请日:2018-05-14
Applicant: 谷歌有限责任公司
IPC: G06F3/16 , G06F16/332 , G06F16/33 , G06F16/9537 , G06F9/46 , G06F9/54 , G10L15/18 , G10L15/22 , G10L15/26 , G10L21/06
Abstract: 本公开涉及通过自动化助理来提供对用户控制资源的访问。描述了方法、装置和计算机可读介质,其涉及在本文中描述的技术,用于允许为用户服务的自动化助理访问由其他人控制的数据,所述数据包括对为其他人服务的自动化助理可用的资源。在各种实施方式中,可以从第一用户接收语音输入。可以从所述语音输入中辨识任务请求并分析任务请求。响应于所述分析,可以做出所述任务请求与第二用户有关的确定。可以检查与由所述第二用户接洽的自动化助理有关的访问控制列表以确定所述第一用户对于所述第二用户是否具有适当的访问权限。响应于确定所述第一用户对于所述第二用户具有适当的访问权限,可以对所述任务请求采取行动。
-
公开(公告)号:CN114026884A
公开(公告)日:2022-02-08
申请号:CN202080047181.7
申请日:2020-07-02
Applicant: 高通股份有限公司
IPC: H04S7/00 , A63F13/211 , A63F13/212 , A63F13/215 , A63F13/25 , A63F13/428 , A63F13/5255 , A63F13/54 , G06F3/16 , G06F21/62 , G02B27/00 , G10L21/06 , H04R5/033
Abstract: 描述了一种用于基于隐私限制来处理一个或多个音频流的方法和设备。设备可以被配置为从在包括一个或多个子声学空间的声学环境中表示的音频元素接收一个或多个音频流,该一个或多个音频流中的每一者表示相应声场,基于与一个或多个音频流相关联的隐私限制确定一个或多个音频流中的不受限音频流,基于与一个或多个音频流相关联的隐私限制确定一个或多个音频流中的受限音频流,生成不受限音频流的对应的相应声场,以及限制受限音频流的对应的相应声场的回放。
-
公开(公告)号:CN113206737A
公开(公告)日:2021-08-03
申请号:CN202110474764.4
申请日:2015-09-01
Applicant: 北京三星通信技术研究有限公司 , 三星电子株式会社
IPC: H04L9/08 , H04L29/06 , H04W12/033 , G10L21/06 , G10L17/02
Abstract: 公开一种语音通信加密方法、解密方法及其装置。所述语音通信加密方法包括:接收发送方的语音信号,并检测发送方的语音信号中是否包含敏感信息;当发送方的语音信号包含敏感信息时,获取接收方的特征信息;使用接收方的特征信息对发送方的语音信号进行加密。
-
公开(公告)号:CN113012712A
公开(公告)日:2021-06-22
申请号:CN202110236535.9
申请日:2021-03-03
Applicant: 华北理工大学
Abstract: 本申请实施例属于图像处理技术领域,涉及一种基于生成对抗网络的人脸视频合成方法及装置。此外,本申请还涉及区块链技术,用户的当前音频数据以及目标人脸视频可存储于区块链中。本申请通过在人脸图像的生成质量上进行对抗训练,以“f‑散度评估”生成数据分布与真实数据分布之间的差异,在增加模型损失收敛速度的同时提高了网络模型对人脸图像视频帧的生成效果。此外本公开为了验证视频帧序列与音频的对齐问题,使用条件对抗网络把音频序列作为条件,输入到视频帧序列判别网络中以提高序列同步的准确性。
-
公开(公告)号:CN112185415A
公开(公告)日:2021-01-05
申请号:CN202010948238.2
申请日:2020-09-10
Applicant: 珠海格力电器股份有限公司
Inventor: 谢迪
Abstract: 本发明公开了一种声音可视化方法及装置、存储介质、MR混合现实设备,所述方法包括:实时监测目标环境中的声音信号,其中,所述目标环境为MR混合现实设备所在环境;将监测到的声音信号与预存的多种参考声音进行对比,根据对比结果确定监测到的声音信号所属的类型;从监测到的声音信号中筛选出待转换的声音信号;根据监测到的声音信号的类型,将待转换的声音信号转换成与其内容对应的可视化信息,并将该可视化信息与现实场景融合显示,将声音可视化与MR混合现实技术结合起来,能够在现实场景中呈现可视化信息,在不影响听障人士的现实生活的前提下,还能够帮助听障人士感受周围环境的声音。
-
-
公开(公告)号:CN108281138B
公开(公告)日:2020-03-31
申请号:CN201711365962.7
申请日:2017-12-18
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 陆永帅
Abstract: 本发明公开了年龄判别模型训练及智能语音交互方法、设备及存储介质,可预先训练得到一个年龄判别模型,当获取到用户输入的语音数据后,可按照预定时长对语音数据进行切分,并分别获取切分得到的各语音数据段的语谱图,之后,可分别将各语谱图输入年龄判别模型,得到输出的语谱图对应的年龄类别,并根据得到的各年龄类别确定出用户的年龄类别,进而向用户返回与用户的年龄类别以及语音数据的语音识别结果相对应的服务内容。应用本发明所述方案,能够提升获取到的年龄信息的准确性,并提升智能语音交互设备的智能性和趣味性等。
-
公开(公告)号:CN107888896B
公开(公告)日:2020-01-03
申请号:CN201710982127.1
申请日:2017-10-20
Applicant: 宁波天坦智慧电子科技股份有限公司
Inventor: 邱家幸
IPC: H04N13/204 , H04N13/271 , H04N13/332 , H04S7/00 , A61H3/06 , G02C11/00 , G10L21/06
Abstract: 本发明公开了一种障碍判断及提醒方法,特别是一种用于导盲眼镜的障碍判断与提醒方法,其图像处理系统在获取场景图像后立刻进行深度计算,然后对深度图进行分片、障碍标记生成,通过音频播放方式将障碍分布情况告知用户,当用户听到音频后,将在脑海里形成他们所想象“视野”中障碍分布状态,然后据此实现自主行走。另外,本申请还提供了采用上述一种障碍判断与提醒方法的导盲眼镜,其包括:一个结合双摄像头的眼镜主体以及一个结合将三维空间场景的两幅照片创建深度图的图像处理系统以及音频控制播放器的手机;上述双摄像头与手机两者实现电连接。其解决了“提升导盲眼镜的导盲精确性”的技术问题,具备障碍物判断精准度相对较高的特点。
-
公开(公告)号:CN106463118B
公开(公告)日:2019-09-03
申请号:CN201680001731.5
申请日:2016-07-07
Applicant: 深圳狗尾草智能科技有限公司
IPC: G10L15/22 , G10L21/055 , G10L21/06 , B25J13/00 , G06F3/01
Abstract: 本发明提供一种同步语音及虚拟动作的方法,包括:获取用户的多模态信息;根据用户的多模态信息和生活时间轴生成交互内容,所述交互内容至少包括语音信息和动作信息;将语音信息的时间长度和动作信息的时间长度调整到相同。这样就可以通过用户的多模态信息例如用户语音、用户表情、用户动作等的一种或几种,来生成交互内容,交互内容中至少包括语音信息和动作信息,而为了让语音信息和动作信息能够同步,将语音信息的时间长度和动作信息的时间长度调整到相同,这样就可以让机器人在播放声音和动作时可以同步匹配,使机器人更加拟人化,也提高了用户于机器人交互时的体验度。
-
-
-
-
-
-
-
-
-