交互问答方法、装置、电子设备和存储介质

    公开(公告)号:CN119312931A

    公开(公告)日:2025-01-14

    申请号:CN202411494182.2

    申请日:2024-10-24

    Abstract: 本发明涉及人工智能技术领域,提供一种交互问答方法、装置、电子设备和存储介质,其中方法包括:获取提问指令,以及包含指向性物体的图像;将所述提问指令中的指代词与所述指向性物体所指示的对象进行关联,得到所述指代词的指代对象,并基于所述指代对象生成回答文本;基于所述回答文本,进行交互问答。本发明提供的交互问答方法、装置、电子设备和存储介质,通过将提问指令中的指代词与指向性物体所指示的具体对象进行关联,能够精细化的识别理解用户的指代式问题,从而正确理解用户意图,通过智能解析指代词,确保多模态信息的对齐,使得回答内容更加贴近人类对话的自然逻辑,提升交互的流畅度和用户体验。

    多模态说话人身份识别方法、装置和设备

    公开(公告)号:CN113920560B

    公开(公告)日:2024-10-25

    申请号:CN202111092312.6

    申请日:2021-09-17

    Abstract: 本发明公开一种多模态说话人身份识别方法、装置和设备,该方法包括:获取会话场景的视频数据和音频数据;对所述视频数据进行人脸检测和唇形检测,得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列;根据所述参会人的所述唇形框序列和所述音频数据,确定所有参会人中的说话人和所述说话人对应的音频数据;根据所述说话人的所述人脸框数据提取所述说话人的视觉特征,并根据所述说话人对应的音频数据提取所述说话人的音频特征;根据所述视觉特征和所述音频特征对所述说话人进行身份识别。本申请能够在复杂多样的会话场景下提高说话人身份识别的准确性。

    开放式问答及多模态大模型的训练方法、装置及相关设备

    公开(公告)号:CN117235232A

    公开(公告)日:2023-12-15

    申请号:CN202311377895.6

    申请日:2023-10-23

    Abstract: 本申请公开了一种开放式问答及多模态大模型的训练方法、装置及相关设备,为了促使多模态大模型关注到空间信息,在预训练阶段针对训练图像生成了匹配的带有空间信息的图像描述文本,空间信息用于表示训练图像中包含的对象在训练图像中的空间位置,采用训练图像及上述添加有显性的对象空间信息的图像描述文本对多模态大模型进行预训练,可以使得多模态大模型在学习图像和内容描述文本的语义对齐关系的基础上,进一步关注到图像中对象的空间位置,也即使得多模态大模型具备检测物体空间位置的能力。在此基础上,当将多模态大模型应用于开放式问答任务,在回答与空间排布相关问题时能够基于掌握的能力准确给出正确回答。

    知识问答方法、装置、设备及存储介质

    公开(公告)号:CN116561277A

    公开(公告)日:2023-08-08

    申请号:CN202310506333.0

    申请日:2023-05-05

    Abstract: 本申请公开了一种知识问答方法、装置、设备及存储介质,方法包括:获取用户输入的图片及与图片相关的问题文本,对识别图片中包含的文本信息,并将文本信息作为问答知识提供给大语言模型,使得大语言模型能够理解图片中包含的文本信息,将其作为知识问答对话的上下文信息,在此基础上,将用户输入的问题文本作为提示指令输入给大语言模型,大语言模型能够基于前述理解的图片中包含的文本信息,对该问题文本进行理解及回复。本申请支持多模态的问题输入,用户可以基于图片进行知识问答,扩展了知识问答的应用场景。并且,按照本申请的方案可以使得大语言模型能够理解图片中包含的文本信息,基于此能够更加准确的给出问题文本所匹配的答复内容。

    目标检测方法、装置、电子设备和存储介质

    公开(公告)号:CN116363392A

    公开(公告)日:2023-06-30

    申请号:CN202211567234.5

    申请日:2022-12-07

    Abstract: 本发明公开一种目标检测方法、装置、电子设备和存储介质,属于图像处理技术领域,所述目标检测方法包括:获取待检测图像,对所述待检测图像进行目标检测,得到目标检测结果;对所述目标检测结果进行负例过滤,得到目标用户对应的检测结果,所述目标用户对应的图像检索特征库是通过对所述目标用户确定的负例图像进行预处理和特征提取得到的。本发明通过无需单独针对目标用户定制目标检测模型,只需要根据目标用户对应的图像检索特征库对目标检测结果进行负例过滤,即可实现针对目标用户定义的目标检测事件得到检测结果,可提高目标检测的效率并降低实现成本。

    话者分离方法、装置、电子设备和存储介质

    公开(公告)号:CN114187917A

    公开(公告)日:2022-03-15

    申请号:CN202111530309.8

    申请日:2021-12-14

    Abstract: 本发明提供一种话者分离方法、装置、电子设备和存储介质,所述方法包括:对视频帧进行人员检测,得到视频帧中人员的人员位置;对视频帧对应的音频段进行声源定位,得到声源位置;基于人员位置和声源位置之间的相对位置关系,对音频段进行话者分离。本发明提供的话者分离方法、装置、电子设备和存储介质,可以避免环境噪声和不同角色话者声纹特征差异程度的影响,进而可以基于人员位置和声源位置之间的相对位置关系,准确对音频段进行话者分离。

Patent Agency Ranking