一种判断说话人数目的方法及系统

    公开(公告)号:CN105161093B

    公开(公告)日:2019-07-09

    申请号:CN201510677237.8

    申请日:2015-10-14

    Abstract: 本发明公开了一种判断说话人数目的方法及系统,包括:接收语音信号;提取所述语音信号的语音信号特征;根据所述语音信号的语音信号特征对所述语音信号进行分割,得到分割信号段;将所述分割信号段聚类成指定个数的语音信号类;根据所述语音信号类中各分割信号段的语音信号特征对所述语音信号进行重分割;计算过程:根据重分割后语音信号类中各分割信号段的语音信号特征计算并比较不同语音信号类之间的相似度;计算过程结束后,根据计算结果确定说话人数目。本发明由于对语音信号进行重分割,可以消除现有技术中对语音信号进行分割时的步长限制的影响,并通过计算比较不同语音信号类之间的相似度,提高后续说话人数目判断的准确度。

    一种语音录入方法及系统
    72.
    发明授权

    公开(公告)号:CN104078076B

    公开(公告)日:2017-04-05

    申请号:CN201410265393.9

    申请日:2014-06-13

    Abstract: 本发明公开了一种语音录入方法及系统,属于语音录入技术领域。该语音录入方法包括:实时接收用户语音录入时的音频信号;对所述音频信号进行端点检测,并根据检测结果确定所述音频信号中的语音是否处于停顿状态;如果是,则按照预设周期计算端点时间,并根据计算结果向用户展示端点提示信息,直到本次停顿结束;所述端点时间包括:当前时刻到当前语音子句自动结束的剩余时间。该语音录入方法及系统,能够有效提高语音录入质量,进而提高语音识别的准确性。

    触屏终端中触摸键盘的控制方法和装置

    公开(公告)号:CN104571915A

    公开(公告)日:2015-04-29

    申请号:CN201410839870.8

    申请日:2014-12-29

    CPC classification number: G06F3/04886 G06F3/0481

    Abstract: 本发明提出一种触屏终端中触摸键盘的控制方法和装置,其中,该触屏终端中触摸键盘的控制方法,包括:根据用户的触发指令在触屏终端系统的触摸键盘进程中注入输入法组件,其中,输入法组件用于截取触摸键盘进程的窗口消息;加载个性化键盘控制模块;当输入法组件截取到触摸键盘进程的窗口消息时,通过个性化键盘控制模块对触屏终端的触摸键盘窗口进行控制。本发明的触屏终端中触摸键盘的控制方法,实现了触摸键盘的个性化控制,从而能够提高输入效率,符合用户的输入习惯,并且能够满足用户的个性化需求,提升了用户体验。

    领域问答大模型训练及问答方法、相关设备及程序产品

    公开(公告)号:CN119961422A

    公开(公告)日:2025-05-09

    申请号:CN202510447052.1

    申请日:2025-04-10

    Abstract: 本申请公开了一种领域问答大模型训练及问答方法、相关设备及程序产品,涉及自然语言处理技术领域。本申请引入了裁判模型,能够对输入的答案进行偏好打分,评估答案的质量。基于领域知识库提取领域问答数据,在对初始大模型进行迭代训练时由裁判大模型对初始大模型生成的领域问题对应的第一答案,和领域问答数据中的第二答案分别打分,基于打分结果选取满足偏好要求的答案与领域问题组成目标训练数据,利用目标训练数据对初始大模型进行训练,得到最终的领域问答大模型,其采用了高质量的领域问答训练数据进行训练。本申请不需要人工对提取的领域问答数据进行校对即可得到高质量的目标训练数据,节省了人工成本,提高了训练效率。

    语音信号处理方法、装置、设备、介质及产品

    公开(公告)号:CN119152874B

    公开(公告)日:2025-04-18

    申请号:CN202411640856.5

    申请日:2024-11-18

    Abstract: 本申请提出一种语音信号处理方法、装置、设备、介质及产品,该方法通过获取原始麦克风信号,原始麦克风信号包括干净麦克风信号和干扰信号,并确定原始麦克风信号对应的频谱掩模,频谱掩模表征原始麦克风信号中各类信号的保留程度;基于原始麦克风信号和频谱掩模,消除原始麦克风信号中的干扰信号,得到干净麦克风信号。本申请通过频谱掩模可以区分并保留原始麦克风信号中关于干净麦克风信号的关键成分,同时抑制无关的噪声和回声,以提高语音清晰度。

    知识问答方法、装置、电子设备及存储介质

    公开(公告)号:CN119474327A

    公开(公告)日:2025-02-18

    申请号:CN202510066924.X

    申请日:2025-01-16

    Abstract: 本发明涉及知识问答技术领域,提供一种知识问答方法、装置、电子设备及存储介质,方法包括:获取第一用户的待回答问题;基于知识库确定与待回答问题对应的目标知识素材;基于目标知识素材,确定目标回答;基于目标回答,生成以第二用户作为虚拟人形象的目标虚拟人视频;目标虚拟人视频中的音频是以第二用户的声纹对目标回答进行语音合成得到的;知识库基于第二用户的音频、文本和文档中的至少一种构建。将个性化语音合成与知识问答系统进行统一,避免现有技术中二者分离带来的体验割裂问题,确保用户从问答到语音输出的整体流程流畅无缝,提高用户的使用体验;灵活利用第二用户的知识库,对用户的个性特征进行深度适配,提高用户的使用体验。

    作业学情采集方法、装置、设备及存储介质

    公开(公告)号:CN115147859B

    公开(公告)日:2025-01-03

    申请号:CN202210909939.4

    申请日:2022-07-29

    Abstract: 本申请公开了一种文本处理方法、装置、设备及存储介质,通过摄像头对审阅者批注纸质作业文档的场景进行拍摄,获取到拍摄的视频,进而对视频中每一视频帧进行识别,得到每一视频帧中包含的审阅者手写体批注内容以及作答者的身份信息,基于识别到的每一视频帧的作答者的身份信息,对拍摄的视频进行切分,得到与每一身份的作答者对应的视频帧序列,基于每一身份的作答者对应的视频帧序列中各视频帧包含的审阅者手写体批注内容,可以分析得到每一身份的作答者的作业学情。本申请提供的方案对于审阅者而言是无感的,不需要改变审阅者的批注流程和习惯,也不需要审阅者去手动对批注后的纸质作业文档进行拍照操作,因此降低审阅者的工作量。

    神经网络处理器的逆向模拟方法及相关装置

    公开(公告)号:CN119227758A

    公开(公告)日:2024-12-31

    申请号:CN202411152985.X

    申请日:2024-08-21

    Abstract: 本申请提出一种神经网络处理器的逆向模拟方法及相关装置,该方法基于硬件算子中的算子参数以及算子参数对应的量化系数,构建硬件算子对应的量化模型;基于硬件算子的输入数据和量化模型,确定硬件算子对应的模拟输出数据;其中,模拟输出数据为对硬件算子计算结果的模拟数据;基于硬件算子的输入数据与硬件算子的模拟输出数据之间的对应关系,构建硬件算子对应的量化转换规则;基于硬件算子对应的量化转换规则,对神经网络模型进行量化训练和/或对量化后的神经网络模型进行测试验证。本方案能够保证神经网络模型的输出结果与神经网络处理器的运行环境中的输出结果保持一致,提高神经网络模型部署到神经网络处理器后的准确度。

    视频合成方法、装置、设备及存储介质

    公开(公告)号:CN117750125A

    公开(公告)日:2024-03-22

    申请号:CN202311872648.3

    申请日:2023-12-29

    Abstract: 本申请公开了一种视频合成方法、装置、设备及存储介质支持多模态条件信息控制下的视频合成,方法包括:获取指定的初始图像,及与待合成视频匹配的多模态条件信息,所述多模态条件信息包括与所述待合成视频匹配的音频信息和/或文本描述信息;提取所述初始图像对应的初始骨架图;以所述多模态条件信息作为控制条件,利用配置的扩散模型在所述控制条件的指导下,生成与所述多模态条件信息语义匹配的连续骨架图,由所述初始骨架图及生成的所述连续骨架图依序组成目标骨架图序列;基于所述目标骨架图序列对所述初始图像的图像特征进行变形,以生成视频序列。实现了根据用户的合成要求,对初始图像进行视频合成的目的,满足用户个性化的合成需求。

Patent Agency Ranking