一种点云处理方法、装置、电子设备及存储介质

    公开(公告)号:CN115690359B

    公开(公告)日:2023-12-15

    申请号:CN202211326541.4

    申请日:2022-10-27

    Abstract: 本申请提供一种点云处理方法、装置、电子设备及存储介质,所述点云处理方法,包括:将目标对象的三维点云投影至预先构建的二维平面,获得所述二维平面中的与各个三维点云点对应的二维投影点;基于所述二维平面中的二维投影点,构建二维投影点网格;根据所述二维投影点网格,以及所述二维投影点与所述三维点云点之间的投影关系,获得所述三维点云的点云网格。该方法通过将三维点云投影至预先构建的二维平面,将对三维点云的点云网格构建问题转化成了二维投影点网格构建问题,并在获得二维投影点网格后,根据二维投影点与三维点云点之间的对应关系,获得三维点云的点云网格,降低了点云网格的构建难度,提高了点云网格的构建效率。

    物体识别方法、装置、设备及存储介质

    公开(公告)号:CN117173483A

    公开(公告)日:2023-12-05

    申请号:CN202311196008.5

    申请日:2023-09-15

    Abstract: 本申请公开了一种物体识别方法、装置、设备及存储介质,本申请获取待识别图片对应的文本模态的多条候选类别,多条候选类别包括待识别图片中物体的真实类别;利用多模态大模型分别提取每条候选类别的文本特征,以及,提取待识别图片的视觉特征;计算待识别图片的视觉特征与每条候选类别的文本特征间的相似度,取最高相似度对应的候选类别作为待识别图片中物体的目标类别。本申请借助多模态大模型强大的通用知识的表示能力,可以更加准确地提取特征,进而基于提取的特征进行物体识别,提升识别准确度,避免了传统物体识别模型在训练数据不充足时识别准确率不高的问题,以及面对特殊视角拍摄的图片的识别准确率不高的问题。

    图文内容生成方法、装置、设备及存储介质

    公开(公告)号:CN117032869A

    公开(公告)日:2023-11-10

    申请号:CN202311030903.X

    申请日:2023-08-14

    Abstract: 本申请公开了一种图文内容生成方法、装置、设备及存储介质,本申请获取需要生成配图的文本信息,从文本信息中获取到关键信息,作为生成配图时的参考文本信息。调用预配置的文图生成模型,借助文图生成模型强大的基于文本生成匹配语义的图片的能力,可以基于获取的关键信息生成与关键信息匹配的图片,融合文本信息与生成的图片,得到图文内容。本申请方案借助AI文图生成模型的能力,可以自动生成与文本信息匹配的图片,且鉴于文图生成模型所生成图片的多样性和文本一致性,可以保证生成的图片的质量且与文本信息的语义是匹配的,最终得到内容质量较高的图文内容,整个过程不依赖于纸质书籍,生成成本大幅降低。

    知识问答方法、装置、设备及存储介质

    公开(公告)号:CN116561276A

    公开(公告)日:2023-08-08

    申请号:CN202310506317.1

    申请日:2023-05-05

    Abstract: 本申请公开了一种知识问答方法、装置、设备及存储介质,方法包括:获取用户输入的图片及与图片相关的问题文本,获取图片的描述信息,并将描述信息作为问答知识提供给大语言模型,使得大语言模型能够理解图片中的图像内容,将其作为知识问答对话的上下文信息,在此基础上,将用户输入的问题文本作为提示指令输入给大语言模型,大语言模型能够基于前述理解的图片中的图像内容,对该问题文本进行理解及回复。本申请支持多模态的问题输入,用户可以基于图片进行知识问答,扩展了知识问答的应用场景。并且,按照本申请的方案可以使得大语言模型能够理解图片的图像内容,基于此能够更加准确的给出问题文本所匹配的答复内容。

    一种语音识别方法、装置、设备及存储介质

    公开(公告)号:CN111583916B

    公开(公告)日:2023-07-25

    申请号:CN202010430127.2

    申请日:2020-05-19

    Abstract: 本申请提供了一种语音识别方法、装置、设备及存储介质,其中,语音识别方法包括:获取目标语音数据和其对应的唇部图像数据,其中,唇部图像数据包括目标语音数据所涉及的每个说话人的唇部图像序列;以目标语音数据对应的唇部图像数据为辅助信息,利用预先建立的混叠语音识别模型,对目标语音数据按说话人进行分离,并对分离后的语音数据进行识别,得到目标语音数据的识别结果;其中,混叠语音识别模型以标注有真实分离结果和真实识别结果的混叠语音数据为训练样本,同时结合训练样本对应的唇部图像数据训练得到。本申请提供的语音识别方案对于嘈杂环境下的混叠语音具有较好的识别效果。

    一种文档版面要素检测方法、装置、存储介质及设备

    公开(公告)号:CN116311322A

    公开(公告)日:2023-06-23

    申请号:CN202310297595.0

    申请日:2023-03-23

    Abstract: 本申请公开了一种文档版面要素检测方法、装置、存储介质及设备,该方法包括:首先获取待检测的目标文档所在的目标图像;然后根据预设版面要素类型,构建预设版面要素对应的编码向量;接着将目标图像和编码向量输入预先构建的文档版面要素检测模型,预测得到目标文档对应的版面要素检测结果;其中,文档版面要素检测模型是利用对比学习和掩码预测的预训练方式,根据预设文档混合要素训练得到的。可见,由于本申请是利用预先根据预设文档混合要素训练得到的文档版面要素检测模型对目标文档进行版面要素检测,从而能够有效提高版面要素的检测效率和准确率,并且在检测过程中还可以根据预设版面要素类型按需进行自定义检测,进而能够提高用户体验。

Patent Agency Ranking