Patent search ap:("腾讯科技(深圳)有限公司") AND inv:"商世东" Page 1

1.

发明公开
语音转化方法、装置、设备及可读存储介质审中-公开

公开(公告)号：CN118280369A

公开(公告)日：2024-07-02

申请号：CN202211740515.6

申请日：2022-12-30

Applicant: 腾讯科技(深圳)有限公司

Inventor： 汤志远 , 黄申 , 商世东

IPC: G10L15/26 , G10L15/16 , G06V30/148 , G06V30/19 , G06V10/82 , G06N3/08 , G06N3/045

Abstract: 本申请公开了一种语音转化方法、装置、设备及可读存储介质，属于计算机技术领域。方法包括：对语音信息进行文本转化，得到多个候选文本信息；基于屏幕图像确定各个候选文本信息的目标出现指标，屏幕图像是在信息共享场景中产生语音信息时通过屏幕展示的与语音信息相关的图像，候选文本信息的目标出现指标表征在信息共享场景中出现该候选文本信息的可能性；从多个候选文本信息中选择目标出现指标满足要求的候选文本信息，得到语音信息的转化文本信息。由于屏幕图像与语音信息的相关性较高，且屏幕图像与语音信息体现了信息共享场景的特点，因此，通过屏幕图像确定的候选文本信息的目标出现指标准确性较高，从而提高了转化文本信息的准确性。

2.

发明公开
语音识别方法、装置、电子设备和存储介质审中-公开

公开(公告)号：CN116978367A

公开(公告)日：2023-10-31

申请号：CN202310161423.0

申请日：2023-02-14

Applicant: 腾讯科技(深圳)有限公司

Inventor： 王旭阳 , 刘勇 , 黄申 , 商世东

IPC: G10L15/08 , G10L15/06 , G10L19/16 , G10L25/69

Abstract: 本申请实施例公开了一种语音识别方法、装置、电子设备和存储介质。本申请实施例利用训练后解码网络对待识别语音进行解码，得到至少一条解码路径输出的候选词，以及所述候选词的基础得分；然后，确定所述候选词中属于热词列表的候选热词，并利用训练后类语言模型对每个候选热词进行热词分类；接着，根据分类结果计算属于训练后类语言模型中预设类别的候选热词的得分调整参数，基于所述得分调整参数更新对应候选热词的基础得分；再然后，基于每条解码路径中所有候选词更新后的基础得分，确定所述待识别语音的识别结果。该方案可以有效地提高语音识别的准确性。

3.

发明公开
听觉辅助方法、装置、设备及计算机可读存储介质审中-实审

公开(公告)号：CN115831344A

公开(公告)日：2023-03-21

申请号：CN202111085866.3

申请日：2021-09-16

Applicant: 腾讯科技(深圳)有限公司

Inventor： 肖玮 , 武庭照 , 史裕鹏 , 王蒙 , 商世东 , 吴祖榕

IPC: G16H40/67 , G16H80/00 , G06F3/0484 , G06F3/0488 , G06F3/16 , G06N3/0442 , G06N3/0464 , G06N3/08

Abstract: 本申请提供了一种听觉辅助方法、装置、设备及计算机可读存储介质；该方法包括：响应于针对听觉辅助客户端的触发操作，呈现听觉辅助界面，所述听觉辅助界面至少包括用于远程问询的第一功能入口和用于近程辅听的第二功能入口；响应于针对所述第一功能入口的触发操作，呈现医生信息展示界面；响应于通过所述医生信息展示界面触发的选择操作，确定选择的目标医生信息和第一预约时间；响应于接收到的预约操作指令，向医生客户端发送远程问诊请求，所述远程问诊请求中携带有所述第一预约时间和进行实时音视频通话的入口链接。通过本申请，能够实现与医生的远程交流，提升听觉辅助效率。

4.

发明公开
音频信号的处理方法、装置、电子设备及存储介质审中-实审

公开(公告)号：CN115175076A

公开(公告)日：2022-10-11

申请号：CN202210771358.9

申请日：2022-06-30

Applicant: 腾讯科技(深圳)有限公司

Inventor： 武庭照 , 肖玮 , 康迂勇 , 史裕鹏 , 商世东 , 吴祖榕

IPC: H04R25/00

Abstract: 本申请提供了一种音频信号的处理方法、装置、电子设备及存储介质，可以应用于车载场景；方法包括：在人机交互界面中显示听力测试控件；响应于针对所述听力测试控件的触发操作，输出第一测试音频信号；响应于针对所述第一测试音频信号的反馈操作，显示目标对象的第一听力测试结果；响应于针对音频设备的配置操作，向所述音频设备发送根据所述第一听力测试结果生成的第一听力辅助策略，其中，所述第一听力辅助策略用于使所述音频设备输出与所述第一听力测试结果适配的第一音频信号。通过本申请，能够以高效的方式实现对音频设备的验配。

5.

发明公开
音频编码及解码方法、装置、设备、介质及程序产品审中-实审

公开(公告)号：CN119274562A

公开(公告)日：2025-01-07

申请号：CN202411422679.3

申请日：2022-06-15

Applicant: 腾讯科技(深圳)有限公司

Inventor： 肖玮 , 黄庆博 , 王蒙 , 康迂勇 , 史裕鹏 , 商世东 , 吴祖榕

IPC: G10L19/16 , G10L19/032

Abstract: 本申请提供了一种音频编码及解码方法、装置、设备、介质及程序产品；其中，音频编码方法包括：对音频信号进行分解处理，得到低频子带信号和高频子带信号；基于低频子带信号以及高频子带信号进行多个层次的特征提取处理，得到多个层次分别对应的子带信号特征；对每个层次对应的子带信号特征进行量化处理，得到子带信号特征的索引值；对子带信号特征的索引值进行编码处理，得到层次对应的码流；对多个层次分别对应的码流配置对应的传输优先级；其中，传输优先级与层次对应的码流的解码质量指标正相关。本申请能够灵活适用于不同网络带宽的应用场景，提升音频编解码的效率和质量。

6.

发明公开
语音识别模型训练方法、语音识别方法及装置审中-实审

公开(公告)号：CN117912454A

公开(公告)日：2024-04-19

申请号：CN202211236417.9

申请日：2022-10-10

Applicant: 腾讯科技(深圳)有限公司

Inventor： 汤志远 , 黄申 , 商世东

IPC: G10L15/06 , G10L15/04 , G10L15/26

Abstract: 本申请提供一种语音识别模型训练方法、语音识别方法及装置，涉及语音处理技术领域，该方法包括：在任一次迭代过程中，获取训练样本集，训练样本集包括多个训练样本，每个训练样本包括样本语音信号、样本语音信号对应的文本和文本的标签，标签用于指示文本是否是一个完整语句，针对训练样本集中的每一训练样本，以训练样本中的样本语音信号的声学特征为语音识别模型的输入，输出样本语音信号的语音识别文本和预测标签，根据每次迭代过程所得到的样本语音信号的语音识别文本和预测标签，以及样本语音信号对应的文本和文本的标签，对语音识别模型的参数进行调整，直到满足停止训练条件，得到已训练的语音识别模型。可提高连续语音识别的准确率。

7.

发明授权
频带扩展方法、装置、电子设备及计算机可读存储介质有权

公开(公告)号：CN112530446B

公开(公告)日：2023-10-20

申请号：CN201910955743.7

申请日：2019-10-09

Applicant: 腾讯科技(深圳)有限公司

Inventor： 肖玮 , 商世东 , 吴祖榕

IPC: G10L19/02 , G10L19/032 , G10L19/16

Abstract: 本申请实施例涉及音频处理技术领域，公开了一种频带扩展方法、装置、电子设备及计算机可读存储介质，其中，频带扩展方法包括：对待处理窄带信号进行时频变换得到对应的低频频谱；基于低频频谱，通过神经网络模型，得到目标宽频频谱的高频部分与低频部分的相关性参数，其中，相关性参数包括高频频谱包络和相对平坦度信息至少其中之一，相对平坦度信息表征了目标宽频频谱的高频部分的频谱平坦度与低频部分的频谱平坦度的相关性；基于相关性参数和低频频谱，得到目标高频频谱；基于低频频谱和目标高频频谱，得到频带扩展后的宽带信号；其中，低频频谱或目标高频频谱中的至少一项是对相应的初始频谱进行滤波处理后的频谱。

8.

发明公开
频带扩展方法、装置、电子设备及计算机可读存储介质有权

公开(公告)号：CN112530446A

公开(公告)日：2021-03-19

申请号：CN201910955743.7

申请日：2019-10-09

Applicant: 腾讯科技(深圳)有限公司

Inventor： 肖玮 , 商世东 , 吴祖榕

IPC: G10L19/02 , G10L19/032 , G10L19/16

Abstract: 本申请实施例涉及音频处理技术领域，公开了一种频带扩展方法、装置、电子设备及计算机可读存储介质，其中，频带扩展方法包括：对待处理窄带信号进行时频变换得到对应的低频频谱；基于低频频谱，通过神经网络模型，得到目标宽频频谱的高频部分与低频部分的相关性参数，其中，相关性参数包括高频频谱包络和相对平坦度信息至少其中之一，相对平坦度信息表征了目标宽频频谱的高频部分的频谱平坦度与低频部分的频谱平坦度的相关性；基于相关性参数和低频频谱，得到目标高频频谱；基于低频频谱和目标高频频谱，得到频带扩展后的宽带信号；其中，低频频谱或目标高频频谱中的至少一项是对相应的初始频谱进行滤波处理后的频谱。

9.

发明公开
音频编码方法、音频解码方法、装置、设备及存储介质审中-实审

公开(公告)号：CN117219095A

公开(公告)日：2023-12-12

申请号：CN202310597138.3

申请日：2023-05-24

Applicant: 腾讯科技(深圳)有限公司

Inventor： 肖玮 , 刘文哲 , 王蒙 , 商世东

IPC: G10L19/008 , G10L19/26 , G10L25/30

Abstract: 本申请提供了一种音频编码方法、音频解码方法、装置、设备及存储介质；涉及人工智能技术；方法包括：对音频信号进行下采样处理，得到音频信号的低频信号；对低频信号进行低频特征提取处理，得到音频信号的低频特征；对音频信号进行高频分析处理，得到音频信号的高频特征；其中，高频特征的特征维度低于低频特征的特征维度；对低频特征进行编码处理，得到音频信号的低频码流，并对高频特征进行编码处理，得到音频信号的高频码流。通过本申请，能够在保证音频质量的情况下，提高音频编码效率。

10.

发明公开
字幕内容的显示方法、装置、设备、介质及程序产品审中-公开

公开(公告)号：CN116962600A

公开(公告)日：2023-10-27

申请号：CN202310029109.7

申请日：2023-01-09

Applicant: 腾讯科技(深圳)有限公司

Inventor： 刘勇 , 王旭阳 , 黄申 , 戴超 , 罗夏君 , 黄珊 , 商世东

IPC: H04N5/278 , G06V20/62 , G06V30/10 , H04N21/488 , H04N21/4402 , G10L15/26

Abstract: 本申请公开了一种字幕内容的显示方法、装置、设备、介质及程序产品，涉及人工智能领域。该方法包括：获取实时视频流中的图像帧和语音讲解流；对图像帧进行字符识别，得到图像帧中包含的字符对应的关键词；构建与关键词对应的关键词拓扑路径；获取与关键词中的字符对应的形近字；对语音讲解流进行语音识别得到语音识别结果，并基于形近字、关键词拓扑路径以及语音识别结果得到实时视频流对应的实时字幕内容。有效的提升实时字幕内容的识别准确率。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification