Patent search ap:("科大讯飞股份有限公司") AND inv:"杨阳" Page 1

1.

发明公开
多模态通用模型的预训练方法、语音识别方法及相关装置审中-实审

公开(公告)号：CN117953874A

公开(公告)日：2024-04-30

申请号：CN202311867273.1

申请日：2023-12-29

Applicant: 科大讯飞股份有限公司

Inventor： 程磊 , 杨阳 , 朱家泉 , 蔡旭浦 , 陆海俊

IPC: G10L15/06 , G10L15/02 , G10L15/26

Abstract: 本申请提出一种多模态通用模型的预训练方法、语音识别方法及相关装置，能够基于不同模态的数据对多模态通用模型进行训练，提升多模态通用模型对具有多模态输入的下游任务的通用性，并且通过以拉近同源数据组中各数据对应的数据特征的距离为目标，对多模态通用模型的参数进行调整，能够使多模态通用模型对不同模态但描述相同或相近内容的数据进行相同的理解，进而提高对具有多模态输入的下游任务的预测结果的准确性，提升多模态通用模型针对具有多模态输入的下游任务的解决能力。

2.

发明公开
影视泛搜索的检索方法、系统、电子设备及存储介质审中-实审

公开(公告)号：CN119415726A

公开(公告)日：2025-02-11

申请号：CN202411423650.7

申请日：2024-10-12

Applicant: 科大讯飞股份有限公司

Inventor： 秦昊 , 陶亚洲 , 杨阳 , 程磊 , 张颜文 , 马丽丽

IPC: G06F16/583 , G06F16/683 , G06F16/33 , G06N3/045 , G06N5/02

Abstract: 本发明提供一种影视泛搜索的检索方法、系统、电子设备及存储介质，涉及自然语言处理技术领域，利用用户交互文本，确定用户意图涉及的目标领域；在目标领域为影视搜索领域的情况下，抽取用户交互文本的语义槽位；在语义槽位不为空且语义槽位与信源影视知识库中各影视资源的知识文本对应的检索槽位不一致，或者语义槽位为空的情况下，利用用户交互文本的向量表示，在影视向量知识库中查询影视资源向量，并对影视资源向量进行语义拼接，得到影视资源语义信息，将影视资源语义信息发送至用户终端。该方法可以在用户意图不明确的情况下实现影视泛搜索，提高影视资源语义信息的准确性，便于为用户推荐更加准确的目标影视资源，提高用户体验。

3.

发明公开
行人轨迹预测方法、装置、电子设备及存储介质审中-实审

公开(公告)号：CN118038484A

公开(公告)日：2024-05-14

申请号：CN202311739412.2

申请日：2023-12-15

Applicant: 科大讯飞股份有限公司

Inventor： 李翔宇 , 杨阳 , 程磊 , 朱家泉

IPC: G06V40/10 , G06V10/62 , G06V10/80 , G06T9/00 , G06T7/246

Abstract: 本申请提出一种行人轨迹预测方法、装置、电子设备及存储介质，该方法包括：基于第一行人的历史轨迹对应的历史轨迹特征，预测历史轨迹对应的未来轨迹的终点，并确定未来轨迹的终点对应的轨迹终点特征；基于第一行人的历史轨迹特征和轨迹终点特征，预测第一行人的下一轨迹点；将第一行人的下一轨迹点与第一行人的历史轨迹组合，得到更新后的第一行人的历史轨迹；重复执行上述步骤，得到由预测的各个下一轨迹点按照预测顺序组成的预测轨迹。采用本申请的技术方案，先预测出行人未来轨迹的终点，从而确定行人意图，再根据未来轨迹的终点和历史轨迹预测出下一轨迹点，能够在确定行人意图的情况下对未来轨迹进行预测，提高了行人轨迹预测的准确度。

4.

发明公开
一种语音识别模型的训练方法、语音识别方法和相关装置审中-实审

公开(公告)号：CN117894301A

公开(公告)日：2024-04-16

申请号：CN202311870858.9

申请日：2023-12-29

Applicant: 科大讯飞股份有限公司

Inventor： 杨阳 , 程磊 , 朱家泉 , 蔡旭浦 , 陆海俊

IPC: G10L15/06 , G10L15/02 , G10L15/26

Abstract: 本申请公开了一种语音识别模型的训练方法、语音识别方法和相关装置，该方法包括：利用语音识别模型对第一样本语音特征进行多次编码处理，得到第一样本语音编码特征，其中，至少一次编码处理作为目标编码处理，目标编码处理得到的编码特征作为样本目标特征，目标编码处理的输出特征为基于目标编码处理对应的样本分类特征得到，样本分类特征是对样本目标特征进行对应的目标建模单元的分类预测得到，对第一样本语音编码特征进行解码，得到第一样本语音对应的第一样本识别文本；基于第一样本识别文本和样本分类特征，调整语音识别模型的模型参数，能够提升语音识别模型的训练效率。

5.

发明公开
多层联邦学习架构的生成、基于多层联邦学习架构的模型训练方法及装置审中-实审

公开(公告)号：CN119849598A

公开(公告)日：2025-04-18

申请号：CN202411853685.4

申请日：2024-12-16

Applicant: 科大讯飞股份有限公司

Inventor： 杨长安 , 程磊 , 杨阳

IPC: G06N3/098 , G06N20/20 , G06F21/62

Abstract: 本发明涉及联邦学习技术领域，提供一种多层联邦学习架构的生成、基于多层联邦学习架构的模型训练方法及装置，方法包括：获取基于多个参与方划分所生成的多个一级集簇，从各个一级集簇中选举底层中心节点；获取底层中心节点划分所生成的多个二级集簇，从各个二级集簇中选举中心节点，得到中间层中心节点；获取中间层中心节点划分的多个三级集簇，从三级集簇中选举中心节点，逐层迭代，获取顶层中心节点；中间层中心节点对中间层参与方的模型参数进行聚合，分发全局模型参数；顶层中心节点更新全局模型参数并下发至中间层中心节点。该方法通过将模型聚合操作分层依次完成，避免单一中心节点承担所有聚合任务，降低由单点故障引发的系统中断风险。

6.

发明公开
一种视频信息获取方法、装置、设备和存储介质审中-实审

公开(公告)号：CN115618060A

公开(公告)日：2023-01-17

申请号：CN202211276804.5

申请日：2022-10-17

Applicant: 科大讯飞股份有限公司

Inventor： 秦昊 , 程磊 , 杨阳 , 陶亚洲 , 杜文贺

IPC: G06F16/783 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08

Abstract: 本申请公开了一种视频信息获取方法、装置、设备和存储介质，该方法包括：获取视频数据；其中，视频数据包括视频以及视频的初始文本信息；对初始文本信息进行实体识别，得到实体信息；利用实体信息得到视频的补充文本信息；将初始文本信息及补充文本信息作为视频的关联信息；其中，关联信息用于与视频一并保存至影视库中，初始文本信息及补充文本信息用于在影视库中对视频的搜索。通过上述方式，本申请能够提高视频的召回率和相关性。

Patent Agency Ranking