Patent search ap:("科大讯飞股份有限公司") AND inv:"夏鹏程" Page 1

1.

发明公开
多模态交互方法、装置、电子设备和存储介质审中-实审

公开(公告)号：CN118782044A

公开(公告)日：2024-10-15

申请号：CN202410847026.3

申请日：2024-06-27

Applicant: 科大讯飞股份有限公司

Inventor： 殷保才 , 叶润春 , 柏航 , 董健 , 盛典 , 吴浩 , 夏鹏程 , 潘吉材 , 刘文超 , 殷兵

IPC: G10L15/26 , G10L15/18 , G10L15/22 , G10L15/16 , G06F3/01 , G06V20/58 , G06V20/59 , G06F40/30 , G06F18/25 , G06N3/045 , G06N3/0442 , G06N3/0464

Abstract: 本发明涉及人机交互技术领域，提供一种多模态交互方法、装置、电子设备和存储介质，其中方法包括：接收车内的用户语音；对所述用户语音进行识别，得到识别文本，并对所述识别文本进行意图理解，获得意图信息；基于所述用户语音和/或所述意图信息，获取所述意图信息对应的图像，所述图像基于车内摄像头和/或车外摄像头采集得到；基于所述识别文本和所述图像，确定交互结果。本发明提供的方法、装置、电子设备和存储介质，通过将语音和视觉信息相融合，能够实现多模态交互，使得交互过程更加自然、准确、智能和灵活，从而大大提升用户的交互体验。

2.

发明公开
文案生成方法、装置、电子设备和存储介质审中-实审

公开(公告)号：CN118673136A

公开(公告)日：2024-09-20

申请号：CN202410847601.X

申请日：2024-06-27

Applicant: 科大讯飞股份有限公司

Inventor： 殷兵 , 盛典 , 董健 , 潘吉材 , 柏航 , 叶润春 , 吴浩 , 夏鹏程 , 刘文超 , 殷保才

IPC: G06F16/34 , G06F40/211 , G06F40/289 , G06F40/284 , G06N3/045 , G06N3/0475 , G06N3/094

Abstract: 本发明提供一种文案生成方法、装置、电子设备和存储介质，其中方法包括：获取用户输入的多张图像和/或针对待生成文案的初始需求描述；基于文案生成模型，应用所述多张图像和/或所述初始需求描述进行文案生成，得到文案初稿；获取所述用户输入的针对所述文案初稿的修改需求描述；基于所述文案生成模型，应用所述修改需求描述，或者，应用所述多张图像和所述修改需求描述，对所述文案初稿进行修改，生成目标文案。本发明通过支持多模态输入、引入交互性和迭代性机制，不仅可以满足用户自由编辑的交互需求，还可以提高文案生成的效率和准确性，为用户提供更加高效、准确和灵活的文案生成体验。

3.

发明公开
手写识别方法、装置、电子设备和存储介质审中-实审

公开(公告)号：CN115984877A

公开(公告)日：2023-04-18

申请号：CN202310130152.2

申请日：2023-02-07

Applicant: 科大讯飞股份有限公司

Inventor： 胡金水 , 殷兵 , 夏鹏程 , 刘辰宇 , 吴嘉嘉

IPC: G06V30/226 , G06V30/19 , G06V30/146

Abstract: 本发明涉及模式识别技术领域，提供一种手写识别方法、装置、电子设备和存储介质，其中方法包括：确定待识别的手写数据，手写数据包括匹配的笔画轨迹和手写图像；基于轨迹编码器，提取笔画轨迹的轨迹特征，并基于图像编码器，提取手写图像的图像特征，轨迹编码器和图像编码器采用差异化的训练策略训练得到；基于双模态解码器，应用图像特征和轨迹特征之间的差异化信息，将轨迹特征和图像特征进行融合，并基于融合后的特征进行手写识别。本发明提供的手写识别方法、装置、电子设备和存储介质，能够显著提升在双模态数据不匹配场景下的识别能力。

4.

发明公开
地标识别方法、装置、电子设备和存储介质审中-实审

公开(公告)号：CN118733794A

公开(公告)日：2024-10-01

申请号：CN202410847926.8

申请日：2024-06-27

Applicant: 科大讯飞股份有限公司

Inventor： 刘文超 , 吴浩 , 夏鹏程 , 柏航 , 董健 , 盛典 , 潘吉材 , 叶润春 , 殷保才

IPC: G06F16/387 , G06F16/332 , G06F40/151 , G06V20/56 , G06V10/40 , G10L15/26

Abstract: 本发明提供一种地标识别方法、装置、电子设备和存储介质，其中方法包括：在接收到用户输入的针对待查询地标的语音问题时，基于车外摄像头，采集多张车外图像；将语音问题转换为文本，并对车外图像进行特征提取，得到图像特征；将图像特征和文本进行拼接，得到拼接结果，并将拼接结果输入至地标识别模型，得到地标识别模型输出的针对语音问题的回答，地标识别模型基于拼接结果，确定待查询地标的检索标识，应用检索标识从周边地图数据库中检索得到待查询地标的详细信息，并基于拼接结果和详细信息，生成回答。本发明提供了便捷和直观的地标查询方式，用户可以通过语音针对待查询地标进行自由提问，即可获得地标的相关信息，提升了用户体验。

5.

发明公开
翻译方法、装置、系统、设备、存储介质和程序产品审中-实审

公开(公告)号：CN119312820A

公开(公告)日：2025-01-14

申请号：CN202411494986.2

申请日：2024-10-24

Applicant: 科大讯飞股份有限公司

Inventor： 殷保才 , 夏鹏程 , 盛典 , 甘文君 , 董健 , 刘文超 , 殷兵

IPC: G06F40/58 , G06F40/30 , G06V20/70 , G06N5/04

Abstract: 本发明提供一种翻译方法、装置、系统、设备、存储介质和程序产品，其中方法包括：基于用户输入中的输入文本和输入图像进行语义分析，基于分析结果确定输出回复；在输出回复为对用户的输入引导的情况下，获取用户对应于输入引导的补充输入；基于用户输入和补充输入进行翻译，得到用户输入对应的翻译结果，采用交互式的方式进行翻译，可以在分析确定当前无法得出准确结果时，提供引导以使用户针对性的进行信息补充，以获取更多有关翻译目标的信息，基于此进行翻译，克服了传统方案中翻译结果不准确、不可靠和不实用的问题，提升了翻译灵活性，可以更好地应对复杂场景，减少歧义，得到准确可靠的翻译结果，并可为用户提供有效帮助，优化用户体验。

Patent Agency Ranking