图片生成方法、装置、设备及可读存储介质

    公开(公告)号:CN116597047A

    公开(公告)日:2023-08-15

    申请号:CN202310200510.2

    申请日:2023-02-28

    Abstract: 本申请公开了一种图片生成方法、装置、设备及可读存储介质。本方案中,首先,获取用户的图片生成请求,图片生成请求中包括用户的至少一个个性化信息;再基于用户的至少一个个性化信息,生成包括与用户的至少一个个性化信息对应的领域元素信息的文本描述信息;最后,基于文本描述信息生成融合有领域元素信息个性化图片,并将个性化图片提供给用户。在本方案中,用户只需输入一些个性化信息,就可以为用户生成包含专业的领域元素信息的文本描述,并生成融合有专业的领域元素信息的个性化图片,该图片生成技术对于专业性较差的用户同样适用,降低了对用户专业性的依赖。

    话者分离方法、装置、电子设备和存储介质

    公开(公告)号:CN114187917B

    公开(公告)日:2025-01-03

    申请号:CN202111530309.8

    申请日:2021-12-14

    Abstract: 本发明提供一种话者分离方法、装置、电子设备和存储介质,所述方法包括:对视频帧进行人员检测,得到视频帧中人员的人员位置;对视频帧对应的音频段进行声源定位,得到声源位置;基于人员位置和声源位置之间的相对位置关系,对音频段进行话者分离。本发明提供的话者分离方法、装置、电子设备和存储介质,可以避免环境噪声和不同角色话者声纹特征差异程度的影响,进而可以基于人员位置和声源位置之间的相对位置关系,准确对音频段进行话者分离。

    文本生成方法、装置、设备及可读存储介质

    公开(公告)号:CN117311866A

    公开(公告)日:2023-12-29

    申请号:CN202311030871.3

    申请日:2023-08-14

    Abstract: 本申请公开了一种文本生成方法、装置、设备及可读存储介质。首先,显示文本生成页面,该文本生成页面中包括输入框以及第一按钮,第一按钮用于指示启动文本生成;然后,获取用户在输入框输入的图片并确定文本描述信息,该文本描述信息用于指示用户的文本生成需求;再获取用户对第一按钮的触发操作并响应于用户对第一按钮的触发操作,输出与图片对应的满足用户的文本生成需求的第一文本。基于该方案,可以基于图片以及文本描述信息,便捷、快速地生成满足用户的文本生成需求的文本。

    知识问答方法、装置、设备及存储介质

    公开(公告)号:CN116561276A

    公开(公告)日:2023-08-08

    申请号:CN202310506317.1

    申请日:2023-05-05

    Abstract: 本申请公开了一种知识问答方法、装置、设备及存储介质,方法包括:获取用户输入的图片及与图片相关的问题文本,获取图片的描述信息,并将描述信息作为问答知识提供给大语言模型,使得大语言模型能够理解图片中的图像内容,将其作为知识问答对话的上下文信息,在此基础上,将用户输入的问题文本作为提示指令输入给大语言模型,大语言模型能够基于前述理解的图片中的图像内容,对该问题文本进行理解及回复。本申请支持多模态的问题输入,用户可以基于图片进行知识问答,扩展了知识问答的应用场景。并且,按照本申请的方案可以使得大语言模型能够理解图片的图像内容,基于此能够更加准确的给出问题文本所匹配的答复内容。

    图像生成方法、装置、电子设备及存储介质

    公开(公告)号:CN115861747A

    公开(公告)日:2023-03-28

    申请号:CN202211457780.3

    申请日:2022-11-21

    Abstract: 本发明提供一种图像生成方法、装置、电子设备及存储介质,其中方法包括:获取待绘制目标的描述文本,从所述描述文本中提取所述绘制目标的预设属性的关键词;基于所述关键词,生成所述预设属性的属性图像;以所述描述文本和所述属性图像为约束,生成所述待绘制目标的目标图像。本发明提供的方法、装置、电子设备及存储介质,以描述文本和属性图像为约束,生成待绘制目标的目标图像,目标图像不仅符合描述文本的限定,还符合属性图像的限定,由此,保证了生成的目标图像中目标的预设属性与描述文本中的关键词一致,目标图像在预设属性的呈现上是符合常识认知的,不会生成稀奇古怪的图像结果,提高了生成的目标图像的准确性和可靠性。

    多模态说话人身份识别方法、装置和设备

    公开(公告)号:CN113920560A

    公开(公告)日:2022-01-11

    申请号:CN202111092312.6

    申请日:2021-09-17

    Abstract: 本发明公开一种多模态说话人身份识别方法、装置和设备,该方法包括:获取会话场景的视频数据和音频数据;对所述视频数据进行人脸检测和唇形检测,得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列;根据所述参会人的所述唇形框序列和所述音频数据,确定所有参会人中的说话人和所述说话人对应的音频数据;根据所述说话人的所述人脸框数据提取所述说话人的视觉特征,并根据所述说话人对应的音频数据提取所述说话人的音频特征;根据所述视觉特征和所述音频特征对所述说话人进行身份识别。本申请能够在复杂多样的会话场景下提高说话人身份识别的准确性。

    翻译方法、装置、系统、设备、存储介质和程序产品

    公开(公告)号:CN119312820A

    公开(公告)日:2025-01-14

    申请号:CN202411494986.2

    申请日:2024-10-24

    Abstract: 本发明提供一种翻译方法、装置、系统、设备、存储介质和程序产品,其中方法包括:基于用户输入中的输入文本和输入图像进行语义分析,基于分析结果确定输出回复;在输出回复为对用户的输入引导的情况下,获取用户对应于输入引导的补充输入;基于用户输入和补充输入进行翻译,得到用户输入对应的翻译结果,采用交互式的方式进行翻译,可以在分析确定当前无法得出准确结果时,提供引导以使用户针对性的进行信息补充,以获取更多有关翻译目标的信息,基于此进行翻译,克服了传统方案中翻译结果不准确、不可靠和不实用的问题,提升了翻译灵活性,可以更好地应对复杂场景,减少歧义,得到准确可靠的翻译结果,并可为用户提供有效帮助,优化用户体验。

    图像处理方法、装置、电子设备及计算机存储介质

    公开(公告)号:CN111161268B

    公开(公告)日:2024-04-30

    申请号:CN201911275373.9

    申请日:2019-12-12

    Abstract: 本申请提供了一种图像处理方法、装置、电子设备及计算机存储介质,首先获取目标用户的胸片图像;接着,将所述胸片图像输入训练好的分割模型,根据所述训练好的分割模型的输出确定原始肋骨图像;最后,对所述原始肋骨图像进行分割处理,得到目标肋骨图像,所述分割处理用于获取无粘连的肋骨图像。可以将深度学习的神经网络模型与后续处理结合,自动分割出每一根肋骨都独立的目标肋骨图像,提升图像处理的准确性和效率,也为医生提供了便利。

    开放式问答方法、装置及相关设备

    公开(公告)号:CN117725168A

    公开(公告)日:2024-03-19

    申请号:CN202311381504.8

    申请日:2023-10-23

    Abstract: 本申请公开了一种开放式问答方法、装置及相关设备,多模态大模型包括图像编码模块和大语言模型,在回答与目标图像相关的问题文本时,可以调用文本识别算法对目标图像进行文本识别,得到文本识别结果,可以通过大语言模型得到该文本识别结果的特征表示,进一步,大语言模型在解码答案文本时其输入除了包含传统的问题文本的特征表示及训练图像的特征表示之外,额外增加了对目标图像的文本识别结果的特征表示,使得大语言模型可以关注到目标图像中文本内容及其位置信息,如此可以使得多模态大模型具备文字空间感知能力,因而在回答与文字空间排布相关问题时能够基于掌握的对文字的空间感知能力准确给出正确回答。

Patent Agency Ranking