-
公开(公告)号:CN118782044A
公开(公告)日:2024-10-15
申请号:CN202410847026.3
申请日:2024-06-27
Applicant: 科大讯飞股份有限公司
IPC: G10L15/26 , G10L15/18 , G10L15/22 , G10L15/16 , G06F3/01 , G06V20/58 , G06V20/59 , G06F40/30 , G06F18/25 , G06N3/045 , G06N3/0442 , G06N3/0464
Abstract: 本发明涉及人机交互技术领域,提供一种多模态交互方法、装置、电子设备和存储介质,其中方法包括:接收车内的用户语音;对所述用户语音进行识别,得到识别文本,并对所述识别文本进行意图理解,获得意图信息;基于所述用户语音和/或所述意图信息,获取所述意图信息对应的图像,所述图像基于车内摄像头和/或车外摄像头采集得到;基于所述识别文本和所述图像,确定交互结果。本发明提供的方法、装置、电子设备和存储介质,通过将语音和视觉信息相融合,能够实现多模态交互,使得交互过程更加自然、准确、智能和灵活,从而大大提升用户的交互体验。
-
公开(公告)号:CN118673136A
公开(公告)日:2024-09-20
申请号:CN202410847601.X
申请日:2024-06-27
Applicant: 科大讯飞股份有限公司
IPC: G06F16/34 , G06F40/211 , G06F40/289 , G06F40/284 , G06N3/045 , G06N3/0475 , G06N3/094
Abstract: 本发明提供一种文案生成方法、装置、电子设备和存储介质,其中方法包括:获取用户输入的多张图像和/或针对待生成文案的初始需求描述;基于文案生成模型,应用所述多张图像和/或所述初始需求描述进行文案生成,得到文案初稿;获取所述用户输入的针对所述文案初稿的修改需求描述;基于所述文案生成模型,应用所述修改需求描述,或者,应用所述多张图像和所述修改需求描述,对所述文案初稿进行修改,生成目标文案。本发明通过支持多模态输入、引入交互性和迭代性机制,不仅可以满足用户自由编辑的交互需求,还可以提高文案生成的效率和准确性,为用户提供更加高效、准确和灵活的文案生成体验。
-
公开(公告)号:CN115984877A
公开(公告)日:2023-04-18
申请号:CN202310130152.2
申请日:2023-02-07
Applicant: 科大讯飞股份有限公司
IPC: G06V30/226 , G06V30/19 , G06V30/146
Abstract: 本发明涉及模式识别技术领域,提供一种手写识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别的手写数据,手写数据包括匹配的笔画轨迹和手写图像;基于轨迹编码器,提取笔画轨迹的轨迹特征,并基于图像编码器,提取手写图像的图像特征,轨迹编码器和图像编码器采用差异化的训练策略训练得到;基于双模态解码器,应用图像特征和轨迹特征之间的差异化信息,将轨迹特征和图像特征进行融合,并基于融合后的特征进行手写识别。本发明提供的手写识别方法、装置、电子设备和存储介质,能够显著提升在双模态数据不匹配场景下的识别能力。
-
公开(公告)号:CN118733794A
公开(公告)日:2024-10-01
申请号:CN202410847926.8
申请日:2024-06-27
Applicant: 科大讯飞股份有限公司
IPC: G06F16/387 , G06F16/332 , G06F40/151 , G06V20/56 , G06V10/40 , G10L15/26
Abstract: 本发明提供一种地标识别方法、装置、电子设备和存储介质,其中方法包括:在接收到用户输入的针对待查询地标的语音问题时,基于车外摄像头,采集多张车外图像;将语音问题转换为文本,并对车外图像进行特征提取,得到图像特征;将图像特征和文本进行拼接,得到拼接结果,并将拼接结果输入至地标识别模型,得到地标识别模型输出的针对语音问题的回答,地标识别模型基于拼接结果,确定待查询地标的检索标识,应用检索标识从周边地图数据库中检索得到待查询地标的详细信息,并基于拼接结果和详细信息,生成回答。本发明提供了便捷和直观的地标查询方式,用户可以通过语音针对待查询地标进行自由提问,即可获得地标的相关信息,提升了用户体验。
-
公开(公告)号:CN119312820A
公开(公告)日:2025-01-14
申请号:CN202411494986.2
申请日:2024-10-24
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种翻译方法、装置、系统、设备、存储介质和程序产品,其中方法包括:基于用户输入中的输入文本和输入图像进行语义分析,基于分析结果确定输出回复;在输出回复为对用户的输入引导的情况下,获取用户对应于输入引导的补充输入;基于用户输入和补充输入进行翻译,得到用户输入对应的翻译结果,采用交互式的方式进行翻译,可以在分析确定当前无法得出准确结果时,提供引导以使用户针对性的进行信息补充,以获取更多有关翻译目标的信息,基于此进行翻译,克服了传统方案中翻译结果不准确、不可靠和不实用的问题,提升了翻译灵活性,可以更好地应对复杂场景,减少歧义,得到准确可靠的翻译结果,并可为用户提供有效帮助,优化用户体验。
-
-
-
-