-
公开(公告)号:CN118782044A
公开(公告)日:2024-10-15
申请号:CN202410847026.3
申请日:2024-06-27
Applicant: 科大讯飞股份有限公司
IPC: G10L15/26 , G10L15/18 , G10L15/22 , G10L15/16 , G06F3/01 , G06V20/58 , G06V20/59 , G06F40/30 , G06F18/25 , G06N3/045 , G06N3/0442 , G06N3/0464
Abstract: 本发明涉及人机交互技术领域,提供一种多模态交互方法、装置、电子设备和存储介质,其中方法包括:接收车内的用户语音;对所述用户语音进行识别,得到识别文本,并对所述识别文本进行意图理解,获得意图信息;基于所述用户语音和/或所述意图信息,获取所述意图信息对应的图像,所述图像基于车内摄像头和/或车外摄像头采集得到;基于所述识别文本和所述图像,确定交互结果。本发明提供的方法、装置、电子设备和存储介质,通过将语音和视觉信息相融合,能够实现多模态交互,使得交互过程更加自然、准确、智能和灵活,从而大大提升用户的交互体验。
-
公开(公告)号:CN118673136A
公开(公告)日:2024-09-20
申请号:CN202410847601.X
申请日:2024-06-27
Applicant: 科大讯飞股份有限公司
IPC: G06F16/34 , G06F40/211 , G06F40/289 , G06F40/284 , G06N3/045 , G06N3/0475 , G06N3/094
Abstract: 本发明提供一种文案生成方法、装置、电子设备和存储介质,其中方法包括:获取用户输入的多张图像和/或针对待生成文案的初始需求描述;基于文案生成模型,应用所述多张图像和/或所述初始需求描述进行文案生成,得到文案初稿;获取所述用户输入的针对所述文案初稿的修改需求描述;基于所述文案生成模型,应用所述修改需求描述,或者,应用所述多张图像和所述修改需求描述,对所述文案初稿进行修改,生成目标文案。本发明通过支持多模态输入、引入交互性和迭代性机制,不仅可以满足用户自由编辑的交互需求,还可以提高文案生成的效率和准确性,为用户提供更加高效、准确和灵活的文案生成体验。
-
公开(公告)号:CN117311866A
公开(公告)日:2023-12-29
申请号:CN202311030871.3
申请日:2023-08-14
Applicant: 科大讯飞股份有限公司
IPC: G06F9/451 , G06F40/106
Abstract: 本申请公开了一种文本生成方法、装置、设备及可读存储介质。首先,显示文本生成页面,该文本生成页面中包括输入框以及第一按钮,第一按钮用于指示启动文本生成;然后,获取用户在输入框输入的图片并确定文本描述信息,该文本描述信息用于指示用户的文本生成需求;再获取用户对第一按钮的触发操作并响应于用户对第一按钮的触发操作,输出与图片对应的满足用户的文本生成需求的第一文本。基于该方案,可以基于图片以及文本描述信息,便捷、快速地生成满足用户的文本生成需求的文本。
-
公开(公告)号:CN119312931A
公开(公告)日:2025-01-14
申请号:CN202411494182.2
申请日:2024-10-24
Applicant: 科大讯飞股份有限公司
IPC: G06N5/04 , G06F40/205 , G06V20/60 , G06V10/25
Abstract: 本发明涉及人工智能技术领域,提供一种交互问答方法、装置、电子设备和存储介质,其中方法包括:获取提问指令,以及包含指向性物体的图像;将所述提问指令中的指代词与所述指向性物体所指示的对象进行关联,得到所述指代词的指代对象,并基于所述指代对象生成回答文本;基于所述回答文本,进行交互问答。本发明提供的交互问答方法、装置、电子设备和存储介质,通过将提问指令中的指代词与指向性物体所指示的具体对象进行关联,能够精细化的识别理解用户的指代式问题,从而正确理解用户意图,通过智能解析指代词,确保多模态信息的对齐,使得回答内容更加贴近人类对话的自然逻辑,提升交互的流畅度和用户体验。
-
公开(公告)号:CN117235232A
公开(公告)日:2023-12-15
申请号:CN202311377895.6
申请日:2023-10-23
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06V10/774 , G06V20/70
Abstract: 本申请公开了一种开放式问答及多模态大模型的训练方法、装置及相关设备,为了促使多模态大模型关注到空间信息,在预训练阶段针对训练图像生成了匹配的带有空间信息的图像描述文本,空间信息用于表示训练图像中包含的对象在训练图像中的空间位置,采用训练图像及上述添加有显性的对象空间信息的图像描述文本对多模态大模型进行预训练,可以使得多模态大模型在学习图像和内容描述文本的语义对齐关系的基础上,进一步关注到图像中对象的空间位置,也即使得多模态大模型具备检测物体空间位置的能力。在此基础上,当将多模态大模型应用于开放式问答任务,在回答与空间排布相关问题时能够基于掌握的能力准确给出正确回答。
-
公开(公告)号:CN117725168A
公开(公告)日:2024-03-19
申请号:CN202311381504.8
申请日:2023-10-23
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06V20/62 , G06T9/00
Abstract: 本申请公开了一种开放式问答方法、装置及相关设备,多模态大模型包括图像编码模块和大语言模型,在回答与目标图像相关的问题文本时,可以调用文本识别算法对目标图像进行文本识别,得到文本识别结果,可以通过大语言模型得到该文本识别结果的特征表示,进一步,大语言模型在解码答案文本时其输入除了包含传统的问题文本的特征表示及训练图像的特征表示之外,额外增加了对目标图像的文本识别结果的特征表示,使得大语言模型可以关注到目标图像中文本内容及其位置信息,如此可以使得多模态大模型具备文字空间感知能力,因而在回答与文字空间排布相关问题时能够基于掌握的对文字的空间感知能力准确给出正确回答。
-
公开(公告)号:CN118733794A
公开(公告)日:2024-10-01
申请号:CN202410847926.8
申请日:2024-06-27
Applicant: 科大讯飞股份有限公司
IPC: G06F16/387 , G06F16/332 , G06F40/151 , G06V20/56 , G06V10/40 , G10L15/26
Abstract: 本发明提供一种地标识别方法、装置、电子设备和存储介质,其中方法包括:在接收到用户输入的针对待查询地标的语音问题时,基于车外摄像头,采集多张车外图像;将语音问题转换为文本,并对车外图像进行特征提取,得到图像特征;将图像特征和文本进行拼接,得到拼接结果,并将拼接结果输入至地标识别模型,得到地标识别模型输出的针对语音问题的回答,地标识别模型基于拼接结果,确定待查询地标的检索标识,应用检索标识从周边地图数据库中检索得到待查询地标的详细信息,并基于拼接结果和详细信息,生成回答。本发明提供了便捷和直观的地标查询方式,用户可以通过语音针对待查询地标进行自由提问,即可获得地标的相关信息,提升了用户体验。
-
-
-
-
-
-