Patent search ap:("北京百度网讯科技有限公司") AND inv:"章成全" Page 1

1.

发明授权
目标图片获取以及模型获取方法、装置、设备及存储介质有权

公开(公告)号：CN117274430B

公开(公告)日：2025-02-14

申请号：CN202311119429.8

申请日：2023-08-31

Applicant: 北京百度网讯科技有限公司

Inventor： 吕鹏原 , 吴亮 , 章成全

IPC: G06T11/60 , G06V30/19 , G06N3/0455 , G06N3/0475 , G06N3/094

Abstract: 本公开提供了目标图片获取以及模型获取方法、装置、设备及存储介质，涉及计算机视觉、深度学习以及大模型等人工智能领域，可应用于人工智能的内容生成等场景。其中的方法可包括：获取待处理的第一图片以及第一文本内容；获取第一图片的图片特征，并获取第一文本内容的文本特征；根据获取到的图片特征以及文本特征生成目标图片特征；根据目标图片特征生成目标图片，所述目标图片为将第一文本内容加入第一图片后得到的图片。

2.

发明授权
用于训练生成式大语言模型和用于处理图像任务的方法有权

公开(公告)号：CN117114063B

公开(公告)日：2025-01-17

申请号：CN202311110301.5

申请日：2023-08-30

Applicant: 北京百度网讯科技有限公司

Inventor： 吕鹏原 , 李煜林 , 张晓强 , 谢群义 , 钦夏孟 , 章成全 , 姚锟

IPC: G06N3/0499 , G06N3/098 , G06V30/148 , G06V10/82

Abstract: 本公开提供了一种用于训练生成式大语言模型和用于处理图像任务的方法，涉及计算机视觉、图像处理、大模型等人工智能技术领域，可应用于光学字符识别等场景。该方法包括：获取使用通用文本训练集训练得到的设置有自注意力网络层和前馈神经网络层的第一生成式大语言模型；在被冻结了参数的自注意力网络层和前馈神经网络层中间增设交叉注意力网络层，且初始化交叉注意力网络层的参数，得到第二生成式大语言模型；将获取到的样本图像的图像特征和用于指示任务类型的提示词作为实际输入、将匹配实际输入的文本序列作为期望输出，以微调的方式训练第二生成式大语言模型，得到第三生成式大语言模型。

3.

发明公开
文档图像处理方法、大模型的训练方法、装置、设备、介质及产品审中-实审

公开(公告)号：CN118762374A

公开(公告)日：2024-10-11

申请号：CN202410889838.4

申请日：2024-07-03

Applicant: 北京百度网讯科技有限公司

Inventor： 马伟洪 , 吕鹏原 , 章成全 , 姚锟

IPC: G06V30/41 , G06V30/414 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0455 , G06N3/042 , G06N3/08

Abstract: 本公开提供了文档图像处理方法、大模型的训练方法、装置、设备、介质及产品，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等技术领域，可应用于OCR等场景。具体实现方案为：对文档图像进行视觉编码，得到文档特征；对文档特征进行特征迁移，得到迁移特征；以及对迁移特征进行解码，得到与文档图像相适配的电子文档，电子文档包括用于指示版面布局的标识和文档内容。

4.

发明授权
文本检测、文本检测模型优化、数据标注的方法、装置有权

公开(公告)号：CN117275005B

公开(公告)日：2024-08-09

申请号：CN202311233516.6

申请日：2023-09-21

Applicant: 北京百度网讯科技有限公司

Inventor： 万星宇 , 章成全 , 吕鹏原 , 姚锟

IPC: G06V30/18 , G06V30/146 , G06N3/0455 , G06N3/08 , G06V10/82

Abstract: 本公开提供了一种文本检测、文本检测模型优化、数据标注的方法、装置，涉及人工智能技术领域，具体为计算机视觉、深度学习、大模型等技术领域，可应用于人工智能的内容生成等场景。实现方案为：获取包含文本的图像的图像特征，以及用于对定位文本进行提示的提示信息特征；对图像特征进行编码操作，以得到经编码的图像特征；基于经编码的图像特征与提示信息特征之间的相关性，确定用于解码操作的锚定框，锚定框用于在解码操作中提供与文本的位置相关的位置参考信息；以及基于经编码的图像特征与提示信息特征之间的注意力交互，以及锚定框提供的位置参考信息，执行解码操作以得到在图像中定位文本的检测框。

5.

发明授权
图像处理方法、训练方法、装置、电子设备及存储介质有权

公开(公告)号：CN116385789B

公开(公告)日：2024-01-23

申请号：CN202310368589.X

申请日：2023-04-07

Applicant: 北京百度网讯科技有限公司

Inventor： 吕鹏原 , 范森 , 章成全 , 姚锟

IPC: G06V10/764 , G06V10/25 , G06V10/40 , G06V10/774

Abstract: 本公开提供了一种图像处理方法、训练方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉技术领域。该图像处理方法的具体实现方案为：提取待处理图像的图像特征；根据待处理图像的图像处理任务，确定特征分布图和处理路径，特征分布图表征与图像处理任务对应的感兴趣区域的分布概率，处理路径表征用于处理待处理图像的处理模式；基于注意力机制，根据图像特征和特征分布图，得到感兴趣区域的图像特征；以及按照处理路径，对感兴趣区域的图像特征进行特征处理，得到与图像处理任务相对应的处理结果。

6.

发明公开
公式识别方法、装置、设备、存储介质及程序产品审中-实审

公开(公告)号：CN117315689A

公开(公告)日：2023-12-29

申请号：CN202311267820.2

申请日：2023-09-27

Applicant: 北京百度网讯科技有限公司

Inventor： 李泊翰 , 吴亮 , 吕鹏原 , 章成全 , 姚锟

IPC: G06V30/28 , G06V30/18 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/0442 , G06N3/048 , G06N3/0895 , G06N3/09

Abstract: 本公开提供了一种公式识别方法、装置、设备、存储介质及程序产品，涉及计算机视觉、深度学习、图像处理等人工智能技术领域，可应用于智慧金融、智慧政务等场景。该方法包括：利用编码网络得到包含有公式的待识别图像的特征图，并利用解码网络中的全局行注意力模块得到与特征图对应的行计数热力图；利用解码网络对特征图中的特征依次进行解码操作：处理行计数热力图和已解码公式符号的特征编码，并对处理后得到的当前隐藏层状态和特征图注意力模块再进行处理，得到待解码公式符号的区域图像；处理将区域图像、特征编码、当前隐藏层状态和行计数热力图，得到输出的公式符号识别结果；将解码网络依次输出的公式符号识别结果生成公式符号序列。

7.

发明公开
文档版式检测模型的训练方法、装置及电子设备审中-实审

公开(公告)号：CN117312849A

公开(公告)日：2023-12-29

申请号：CN202311220870.5

申请日：2023-09-20

Applicant: 北京百度网讯科技有限公司

Inventor： 马伟洪 , 吕鹏原 , 章成全 , 姚锟

IPC: G06F18/214 , G06F40/197

Abstract: 本公开提供了文档版式检测模型的训练方法、装置及电子设备，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型技术领域。具体实现方案为：获取第一训练数据、初始的第一文档版式检测模型、以及第二文档版式检测模型；第二文档版式检测模型的参数，根据包括多个样本文档图像的真标签的第二训练数据确定；将第一训练数据中的样本文档图像输入第二文档版式检测模型，获取版式预测结果；根据版式预测结果以及第一训练数据中该样本文档图像的弱标签，确定伪标签；进而结合伪标签对第一文档版式检测模型进行训练处理。

8.

发明授权
文字识别方法、装置、设备、存储介质和智能词典笔有权

公开(公告)号：CN113642584B

公开(公告)日：2023-11-28

申请号：CN202110934110.5

申请日：2021-08-13

Applicant: 北京百度网讯科技有限公司

Inventor： 刘珊珊 , 乔美娜 , 吴亮 , 章成全 , 姚锟

IPC: G06V30/148

Abstract: 本公开公开了一种文字识别方法，涉及人工智能技术领域，具体为计算机视觉和深度学习技术领域，可应用于光学字符识别OCR等场景。具体实现方案为：获取针对文档连续扫描得到的多个图像序列；基于多个图像序列进行图像拼接，得到对应的多个连续拼接图像帧，其中，两两连续拼接图像帧之间存在重叠区域；基于多个连续拼接图像帧进行文字识别，得到对应的多个识别结果；以及基于多个连续拼接图像帧中两两连续拼接图像帧间的重叠区域，对多个识别结果进行去重处理，得到针对文档的文字识别结果。

9.

发明授权
用于处理图像的方法、装置、设备以及存储介质有权

公开(公告)号：CN112508005B

公开(公告)日：2023-11-17

申请号：CN202011526687.4

申请日：2020-12-22

Applicant: 北京百度网讯科技有限公司

Inventor： 章成全 , 恩孟一 , 黄聚 , 谢群义 , 钦夏孟 , 姚锟 , 韩钧宇 , 刘经拓 , 丁二锐

IPC: G06V10/25 , G06V10/22 , G06V10/44 , G06V10/82 , G06N3/0464 , G06N3/08

Abstract: 本申请公开了用于处理图像的方法、装置、设备以及存储介质，涉及人工智能领域，具体涉及计算机视觉、深度学习等技术领域。具体实现方案为：获取模板图像，模板图像包括至少一个感兴趣区域；确定各感兴趣区域对应的第一特征图；获取目标图像；确定目标图像的第二特征图；根据各第一特征图和第二特征图，确定目标图像中的至少一个感兴趣区域。本实现方式可以检测任意垂类任意数量字段的文本，能够满足用户的定制化需求。

10.

发明授权
文字识别模型的训练方法和识别图像中文字的方法有权

公开(公告)号：CN113313022B

公开(公告)日：2023-11-10

申请号：CN202110587936.9

申请日：2021-05-27

Applicant: 北京百度网讯科技有限公司

Inventor： 徐杨柳 , 谢群义 , 钦夏孟 , 章成全 , 姚锟

IPC: G06V30/413 , G06V30/19 , G06V10/82 , G06N3/0475 , G06N3/045 , G06N3/044

Abstract: 本公开提供了一种文字识别模型的训练方法和识别图像中文字的方法、装置、电子设备和存储介质，应用于人工智能技术领域，具体应用于计算机视觉和深度学习技术领域，可应用于图像识别场景下。文字识别模型的训练方法的具体实现方案为：以第一目标图像作为第一文字识别模型的输入，获得第一特征图；以样本图像作为第二文字识别模型的输入，获得第二特征图，其中，第二文字识别模型以第一文字识别模型作为初始模型；基于第一特征图和第二特征图的差异，确定第一损失值；以及基于第一损失值，对第二文字识别模型进行训练。其中，第一目标图像与样本图像包括相同的文字，且第一目标图像以目标格式表示文字。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification