-
公开(公告)号:CN117114063B
公开(公告)日:2025-01-17
申请号:CN202311110301.5
申请日:2023-08-30
Applicant: 北京百度网讯科技有限公司
IPC: G06N3/0499 , G06N3/098 , G06V30/148 , G06V10/82
Abstract: 本公开提供了一种用于训练生成式大语言模型和用于处理图像任务的方法,涉及计算机视觉、图像处理、大模型等人工智能技术领域,可应用于光学字符识别等场景。该方法包括:获取使用通用文本训练集训练得到的设置有自注意力网络层和前馈神经网络层的第一生成式大语言模型;在被冻结了参数的自注意力网络层和前馈神经网络层中间增设交叉注意力网络层,且初始化交叉注意力网络层的参数,得到第二生成式大语言模型;将获取到的样本图像的图像特征和用于指示任务类型的提示词作为实际输入、将匹配实际输入的文本序列作为期望输出,以微调的方式训练第二生成式大语言模型,得到第三生成式大语言模型。
-
公开(公告)号:CN118823184A
公开(公告)日:2024-10-22
申请号:CN202410868648.4
申请日:2024-06-28
Applicant: 北京百度网讯科技有限公司
IPC: G06T11/60 , G06F40/30 , G06F40/284 , G06N3/045 , G06N3/0464
Abstract: 本公开提供了一种图像生成、大模型的训练、图像处理方法及装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于AIGC、人机交互等场景。该图像生成方法包括:获取编辑文本和经加噪处理的原始图像,编辑文本用于指示针对目标对象的编辑操作,经加噪处理的原始图像未包括目标对象;分别对编辑文本和经加噪处理的原始图像进行特征提取处理,得到文本特征和图像特征,文本特征包括至少一个词向量;根据文本特征和图像特征,确定至少一个词向量各自的特征图;根据至少一个词向量各自的特征图,生成编辑图像,编辑图像包括目标对象。
-
公开(公告)号:CN118762374A
公开(公告)日:2024-10-11
申请号:CN202410889838.4
申请日:2024-07-03
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/41 , G06V30/414 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0455 , G06N3/042 , G06N3/08
Abstract: 本公开提供了文档图像处理方法、大模型的训练方法、装置、设备、介质及产品,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于OCR等场景。具体实现方案为:对文档图像进行视觉编码,得到文档特征;对文档特征进行特征迁移,得到迁移特征;以及对迁移特征进行解码,得到与文档图像相适配的电子文档,电子文档包括用于指示版面布局的标识和文档内容。
-
公开(公告)号:CN114445811B
公开(公告)日:2024-10-01
申请号:CN202210113499.1
申请日:2022-01-30
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种图像处理方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉技术领域,可应用于OCR等应用场景。具体实现方案为:将目标样本图像、所述目标样本图像的检测结果输入至预先经过训练的特征提取模型,得到所述特征提取模型输出的所述目标样本图像的目标样本特征;针对每个候选样本图像,将所述候选样本图像和所述候选样本图像的检测结果输入至所述特征提取模型,得到所述特征提取模型输出的所述候选样本图像的候选样本特征;从各所述候选样本图像中选取匹配候选样本图像,作为用于训练目标检测模型的样本图像。可以筛选出能够对目标检测模型定向训练的样本图像,以提高目标检测模型的准确性。
-
公开(公告)号:CN118629054A
公开(公告)日:2024-09-10
申请号:CN202410749748.5
申请日:2024-06-11
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19
Abstract: 本公开提供了文字识别模型的样本确定的方法及装置。本公开涉及人工智能技术领域,具体涉及计算机视觉、深度学习、图像处理、文字识别等技术领域,可应用于智慧城市、智慧金融等场景。基于初始的第一文字识别模型,得到更新后的第一训练集;使用更新后的第一训练集对初始的第一文字识别模型进行再训练,得到更新后的第一文字识别模型;基于更新后的第一文字识别模型,得到再次更新后的第一训练集;基于再次更新后的第一训练集,对该更新后的第一文字识别模型进行再训练,直到满足第一预设条件;根据训练得到目标第一文字识别模型采用的第一训练集,确定第一类样本集。
-
公开(公告)号:CN118520135A
公开(公告)日:2024-08-20
申请号:CN202410796879.9
申请日:2024-06-19
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/58 , G06F40/151 , G06V30/148 , G06F40/295
Abstract: 本公开提供了一种图像描述文本的生成方法,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型技术领域。具体实现方案为:将针对原始图像的视觉处理结果转换为视觉知识文本;根据原始图像以及视觉知识文本,生成原始图像的整图描述文本;根据原始图像的局部图像以及视觉知识文本,生成局部图像的局部描述文本;整合整图描述文本和局部描述文本,得到原始图像的整合描述文本。本公开还提供了一种图像描述文本的生成装置、电子设备和存储介质。
-
公开(公告)号:CN117275005B
公开(公告)日:2024-08-09
申请号:CN202311233516.6
申请日:2023-09-21
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/18 , G06V30/146 , G06N3/0455 , G06N3/08 , G06V10/82
Abstract: 本公开提供了一种文本检测、文本检测模型优化、数据标注的方法、装置,涉及人工智能技术领域,具体为计算机视觉、深度学习、大模型等技术领域,可应用于人工智能的内容生成等场景。实现方案为:获取包含文本的图像的图像特征,以及用于对定位文本进行提示的提示信息特征;对图像特征进行编码操作,以得到经编码的图像特征;基于经编码的图像特征与提示信息特征之间的相关性,确定用于解码操作的锚定框,锚定框用于在解码操作中提供与文本的位置相关的位置参考信息;以及基于经编码的图像特征与提示信息特征之间的注意力交互,以及锚定框提供的位置参考信息,执行解码操作以得到在图像中定位文本的检测框。
-
公开(公告)号:CN112102449B
公开(公告)日:2024-05-03
申请号:CN202010965379.5
申请日:2020-09-14
Applicant: 北京百度网讯科技有限公司
IPC: G06T13/20 , G06F16/74 , G06F16/783
Abstract: 本申请公开了一种虚拟人物的生成方法、展示方法、装置、设备以及存储介质,涉及人工智能领域,具体涉及计算机视觉和图像处理领域。所述虚拟人物的生成方法包括:创建虚拟人物的第一动画视频和第二动画视频,虚拟人物在第一动画视频中表现为静默状态,虚拟人物在第二动画视频中表现为执行多个动作;将第二动画视频划分为与多个动作一一对应的多个动作视频,多个动作视频分别与多个语音指令相关联;针对每个动作视频,生成动作视频相对于预设帧的起始过渡帧和结尾过渡帧;以及生成虚拟人物的展示数据,展示数据包括第一动画视频、多个动作视频、多个动作视频与多个语音指令的关联以及每个动作视频相对于预设帧的起始过渡帧和结尾过渡帧。
-
公开(公告)号:CN116385789B
公开(公告)日:2024-01-23
申请号:CN202310368589.X
申请日:2023-04-07
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/764 , G06V10/25 , G06V10/40 , G06V10/774
Abstract: 本公开提供了一种图像处理方法、训练方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域。该图像处理方法的具体实现方案为:提取待处理图像的图像特征;根据待处理图像的图像处理任务,确定特征分布图和处理路径,特征分布图表征与图像处理任务对应的感兴趣区域的分布概率,处理路径表征用于处理待处理图像的处理模式;基于注意力机制,根据图像特征和特征分布图,得到感兴趣区域的图像特征;以及按照处理路径,对感兴趣区域的图像特征进行特征处理,得到与图像处理任务相对应的处理结果。
-
公开(公告)号:CN117315689A
公开(公告)日:2023-12-29
申请号:CN202311267820.2
申请日:2023-09-27
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/28 , G06V30/18 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/0442 , G06N3/048 , G06N3/0895 , G06N3/09
Abstract: 本公开提供了一种公式识别方法、装置、设备、存储介质及程序产品,涉及计算机视觉、深度学习、图像处理等人工智能技术领域,可应用于智慧金融、智慧政务等场景。该方法包括:利用编码网络得到包含有公式的待识别图像的特征图,并利用解码网络中的全局行注意力模块得到与特征图对应的行计数热力图;利用解码网络对特征图中的特征依次进行解码操作:处理行计数热力图和已解码公式符号的特征编码,并对处理后得到的当前隐藏层状态和特征图注意力模块再进行处理,得到待解码公式符号的区域图像;处理将区域图像、特征编码、当前隐藏层状态和行计数热力图,得到输出的公式符号识别结果;将解码网络依次输出的公式符号识别结果生成公式符号序列。
-
-
-
-
-
-
-
-
-