语音交互方法、设备及存储介质
    1.
    发明公开

    公开(公告)号:CN119580707A

    公开(公告)日:2025-03-07

    申请号:CN202411543361.0

    申请日:2024-10-31

    Abstract: 本申请公开了一种语音交互方法、设备及存储介质,涉及人工智能技术领域,所述的方法包括:获取用户的目标语音指令,并根据预设的目标大语言模型对所述目标语音指令进行解析,得到控制意图;根据所述控制意图和被控设备对应的UI界面,确定所述控制意图对应的目标界面元素的位置序列;以及根据所述控制意图确定触发动作序列;控制所述被控设备基于所述位置序列和所述触发动作序列响应所述目标语音指令,其中,所述位置序列和所述触发动作序列的组成元素量相等。本申请能够根据用户输入的语音指令自动完成和用户界面的交互,提高了交互的效率。

    一种显示设备和语音标识推荐方法

    公开(公告)号:CN119484915A

    公开(公告)日:2025-02-18

    申请号:CN202411358376.X

    申请日:2024-09-27

    Abstract: 本申请提供一种显示设备和语音标识推荐方法。该方法包括接收用户的语音交互数据;确定语音交互数据的目标关键词;在预构建的语音标识库中查找目标关键词,并确定目标关键词对应的目标主题词;响应于目标主题词在语音标识库中的被查找次数超过目标主题词对应的目标查找阈值,在语音标识库中确定目标主题词对应的目标语音标识;显示目标语音标识。该过程可基于用户的语音交互数据确定其中的主题词,并利用语音标识库向用户展示主题词对应的语音标识,以使用户更换语音助手的虚拟形象,可增加用户使用语音交互的频率,提高用户的语音服务体验。

    唤醒应用程序的方法及电子设备
    3.
    发明公开

    公开(公告)号:CN119418695A

    公开(公告)日:2025-02-11

    申请号:CN202411490759.2

    申请日:2022-11-16

    Abstract: 本申请提供了一种唤醒应用程序的方法及电子设备,该方法包括:气息唤醒处理装置在检测出获取到的第一数据用于指示气息唤醒第一应用程序时,发送第一数据中的语音数据;气息唤醒软件模块存储语音数据,启动第一应用程序,控制气息唤醒处理装置停止检测第一应用程序的气息唤醒;第一应用程序在调用气息唤醒软件模块成功时,发送第一通知;气息唤醒软件模块向第一应用程序发送语音数据;第一应用程序对语音数据进行语音识别;第一应用程序在根据语音数据确定语音识别结束时发送第二通知;气息唤醒软件模块响应于第二通知控制气息唤醒处理装置启动下一次气息唤醒。从而,不仅实现了应用程序的唤醒,还为应用程序的唤醒做好了准备。

    基于语义识别的人机对话方法及系统

    公开(公告)号:CN119415637A

    公开(公告)日:2025-02-11

    申请号:CN202411469727.4

    申请日:2024-10-21

    Abstract: 本申请涉及自然语言理解技术领域,公开了一种基于语义识别的人机对话方法及系统。本申请通过当前用户的对话历史数据对当前语音指令的规范程度进行预测,得到规范预测等级,从而在规划预测等级越高时,规划预测等级所应用的拓展识别策略越少,以根据规划预测等级对应的目标策略对当前语音指令进行语义识别,得到语义识别结果,并根据语义识别结果生成指令反馈信息,根据用户历史数据对语音指令进行规范性预测,以根据指令规范程度确定目标策略,实现了当前语音指令与语义识别策略之间的动态调整,并在规划预测等级高的情况下减少拓展识别策略的数量,从而降低执行拓展识别策略所需的算力,减少语义识别的算力浪费。

    一种用于车载智能音响的语音控制优化方法

    公开(公告)号:CN119207411B

    公开(公告)日:2025-02-07

    申请号:CN202411666459.5

    申请日:2024-11-21

    Inventor: 刘斌

    Abstract: 本发明公开了一种用于车载智能音响的语音控制优化方法,涉及车辆内部控制相关领域,该方法包括:获取目标驾驶状态信息;获取第一激活指令,基于第一激活指令对目标驾驶状态信息进行预分析,生成目标音响应用预测,目标音响应用预测包括多个预测应用类目;获取第一选定指令,并基于第一选定指令对多个预测应用类目中的第一目标应用类目进行选择启动;获取第一目标应用类目的第一控制策略,并基于第一控制策略对第一目标应用类目进行语音控制优化。解决了现有车载智能音响语音控制存在的无法根据驾驶状态和用户具体需求调整控制策略,导致用户体验不佳的技术问题,达到了通过优化语音控制策略,提高控制精度和响应速度,提升用户体验的技术效果。

    一种网约车服务信息管理方法

    公开(公告)号:CN118247024B

    公开(公告)日:2025-02-07

    申请号:CN202410443669.1

    申请日:2024-04-13

    Abstract: 本发明公开了一种网约车服务信息管理方法,属于服务信息管理技术领域;通过对网约车司机服务过程中的主动对话实施监测以及处理分析,获取到司机服务过程中的各项注意事项是否提醒到位,通过对对话语音进行处理并组合获取对应的局部对话处理数组;通过对网约车司机服务过程中的操作行为实施监测以及处理分析,获取到司机服务过程中的各项操作行为是否规范,通过对监测的异常操作行为进行处理统计,实现了对异常操作行为进行数字化处理;通过将网约车服务订单的司机服务不同方面的局部服务监测分析结果进行整合获取服务影响度;本发明用于解决现有方案中司机服务过程监测维度单一以及后续服务评价不精准的技术问题。

    一种语音识别场景下音量自适应方法及装置

    公开(公告)号:CN114464190B

    公开(公告)日:2025-01-28

    申请号:CN202210113027.6

    申请日:2022-01-30

    Inventor: 赵东阳 李霄寒

    Abstract: 一种语音识别场景下音量自适应方法和系统,提取用户语音中的声纹特征,根据声纹特征进行用户对象区分;获取麦克风的属性信息,将麦克风的属性信息保存到第一数据库;第一数据库中构建有用户账号‑麦克风信息‑音量最优值表,通过用户账号‑麦克风信息‑音量最优值表记录用户账号、麦克风信息和音量最优值的关系;根据用户的声纹特征、用户账号、麦克风信息和音量最优值对麦克风的录音音量进行适配。同时对给定用户进行麦克风录音音量训练,获取麦克风录音音量最优值。本发明通过声纹技术合麦克风录音音量训练,形成了用户、麦克风、最优值的关系型数据,提升了语音识别的准确率;节约了大量技术人员的重复设置工作;实现麦克风数据更新和积累。

    信息显示方法及其装置
    8.
    发明公开

    公开(公告)号:CN119360839A

    公开(公告)日:2025-01-24

    申请号:CN202411455005.3

    申请日:2024-10-17

    Inventor: 余万利

    Abstract: 本申请公开了信息显示方法及其装置。属于通信技术领域。该方法的实施例包括:将待处理语音输入至第一模型,得到第一模型输出的与待处理语音对应的第一文本,第一文本中包括多个段落;通过第二模型,确定第一文本中的至少一个关键信息和第一文本中与至少一个关键信息相关联的段落;在第一文本的显示界面显示至少一个关键信息;在接收到用户对至少一个关键信息中的目标关键信息的第一输入的情况下,显示第一文本中与目标关键信息相关联的段落。

    基于语言识别的客舱服务自动化分类与执行方法和系统

    公开(公告)号:CN119296518A

    公开(公告)日:2025-01-10

    申请号:CN202411832707.9

    申请日:2024-12-13

    Inventor: 刘媛媛

    Abstract: 本发明涉及语言识别的技术领域,提供了基于语言识别的客舱服务自动化分类与执行方法和系统,监听客舱内所有呼叫端的语音消息生成特征信息,将呼叫端分配对接至相应消息中转端,将接收的语音消息组成语音消息队列;对语音消息队列进行第一语言文本识别,得到所有语音消息的文本内容特征信息,识别客舱内服务机器人,确定语音消息队列允许发送至的服务机器人;对语音消息队列进行第二语言文本识别,得到消息数据特征信息,以此选择匹配通信通道将语音消息队列传输至服务机器人并对语音消息添加来源标签;基于服务机器人接收的语音信息,生成任务指令,基于语音消息的时间属性信息,调整对任务指令的执行状态,实现灵活和可扩展的语音交互客舱服务。

    自适应噪声抑制的多语言长录音转写方法、系统以及设备

    公开(公告)号:CN119007740B

    公开(公告)日:2025-01-10

    申请号:CN202411452249.6

    申请日:2024-10-17

    Inventor: 车建波

    Abstract: 本发明提供了一种自适应噪声抑制的多语言长录音转写方法、系统以及设备,包括:对多语言长录音进行音频分割,得到多个音频片段;对每个音频片段进行频谱分析,得到对应的频谱特征;根据频谱特征对各个音频片段进行噪声检测,确定噪声片段;对所述多语言长录音中的各个噪声片段进行自适应噪声抑制,得到去噪后的多语言音频;对去噪后的多语言音频进行语音活动检测,确定语音片段和非语音片段;对语音片段进行特征提取,得到语音特征;将语音特征输入预先训练的多语言转写模型进行转写,得到对应的文本结果。在本发明中,通过对所述多语言长录音中的各个噪声片段进行自适应噪声抑制,有效降低噪声的干扰,提升语音质量。

Patent Agency Ranking