Patent search ap:("北京百度网讯科技有限公司") AND inv:"李煜林" Page 3

21.

发明公开
用于训练生成式大语言模型和用于处理图像任务的方法有权

公开(公告)号：CN117114063A

公开(公告)日：2023-11-24

申请号：CN202311110301.5

申请日：2023-08-30

Applicant: 北京百度网讯科技有限公司

Inventor： 吕鹏原 , 李煜林 , 张晓强 , 谢群义 , 钦夏孟 , 章成全 , 姚锟

IPC: G06N3/0499 , G06N3/098 , G06V30/148 , G06V10/82

Abstract: 本公开提供了一种用于训练生成式大语言模型和用于处理图像任务的方法，涉及计算机视觉、图像处理、大模型等人工智能技术领域，可应用于光学字符识别等场景。该方法包括：获取使用通用文本训练集训练得到的设置有自注意力网络层和前馈神经网络层的第一生成式大语言模型；在被冻结了参数的自注意力网络层和前馈神经网络层中间增设交叉注意力网络层，且初始化交叉注意力网络层的参数，得到第二生成式大语言模型；将获取到的样本图像的图像特征和用于指示任务类型的提示词作为实际输入、将匹配实际输入的文本序列作为期望输出，以微调的方式训练第二生成式大语言模型，得到第三生成式大语言模型。

22.

发明授权
信息生成方法、装置、电子设备以及存储介质有权

公开(公告)号：CN115497113B

公开(公告)日：2023-11-14

申请号：CN202211219460.4

申请日：2022-09-30

Applicant: 北京百度网讯科技有限公司

Inventor： 于海鹏 , 李煜林 , 钦夏孟 , 姚锟

IPC: G06V30/412 , G06V30/18 , G06V30/19 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/084 , G06N3/045

Abstract: 本公开提供了一种信息生成方法、装置、电子设备以及存储介质，涉及人工智能技术领域，尤其涉及图像处理、计算机视觉和深度学习技术领域，可应用于OCR等场景。具体实现方案为：对文本表格图像进行处理，得到文本表格图像中各文本区域的局部特征信息和文本识别信息；对局部特征信息进行列分类，得到各文本区域的列分类信息；根据局部特征信息，确定各文本区域之间的相似度；根据相似度，确定各文本区域的行分类信息；根据行分类信息、列分类信息和文本识别信息，生成文本表格图像的结构化信息。

23.

发明授权
图像问答方法、装置、计算机设备和介质有权

公开(公告)号：CN111782840B

公开(公告)日：2023-08-22

申请号：CN202010616632.6

申请日：2020-06-30

Applicant: 北京百度网讯科技有限公司

Inventor： 钦夏孟 , 李煜林 , 谢群义 , 黄聚 , 韩钧宇

IPC: G06F16/532 , G06F16/583 , G06V10/80 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/08 , G06V10/70 , G06N5/045

Abstract: 本公开提供了一种图像问答方法，涉及计算机视觉、自然语言处理领域。该方法包括：获取输入图像和输入问题；基于输入图像，构建视觉图，视觉图包括节点特征和边特征；基于上述节点特征和边特征，对节点特征进行更新，以得到更新视觉图；基于输入问题，确定问题特征；对更新视觉图和问题特征进行融合处理，以得到融合特征；并且，基于融合特征，生成针对输入图像和输入问题的预测答案。本公开还提供了图像问答装置、计算机设备和介质。

24.

发明公开
图像处理方法、图像处理模型的训练方法和装置审中-实审

公开(公告)号：CN116597454A

公开(公告)日：2023-08-15

申请号：CN202310597526.1

申请日：2023-05-24

Applicant: 北京百度网讯科技有限公司

Inventor： 钦夏孟 , 李煜林 , 谢群义 , 姚锟 , 韩钧宇

IPC: G06V30/19 , G06V10/82

Abstract: 本公开提供了一种图像处理方法、图像处理模型的训练方法、装置和设备，涉及人工智能技术领域，具体为计算机视觉、图像处理、深度学习等技术领域，可应用于OCR、智慧政务等场景。图像处理方法包括：对目标图像进行文本识别，得到多个文本区域和其各自的文本内容；提取表征多个文本区域的视觉模态信息的多个第一视觉特征和每一个文本区域所包括的文本内容的文本模态信息的多个第一文本特征；基于多个第一视觉特征将多个第一文本特征融合，以得到多个第一文本融合特征；基于多个第一文本特征将多个第一视觉特征融合，以得到多个第一视觉融合特征；基于注意力机制对多个第一视觉融合特征和多个第一文本融合特征进行强化进而得到图像处理结果。

25.

发明授权
光学字符识别模型训练和识别方法、装置、设备及介质有权

公开(公告)号：CN113033431B

公开(公告)日：2023-08-08

申请号：CN202110341261.X

申请日：2021-03-30

Applicant: 北京百度网讯科技有限公司

Inventor： 黄聚 , 谢群义 , 李煜林 , 钦夏孟 , 章成全 , 姚锟

IPC: G06V30/413 , G06V20/62 , G06V30/18 , G06V10/82 , G06F40/30 , G06N3/044 , G06N3/0442

Abstract: 本公开公开了一种光学字符识别模型训练和识别方法、装置、设备及介质，涉及人工智能技术领域，尤其涉及计算机视觉和深度学习技术，可用于OCR场景下。具体实现方案为：对样本图像进行特征提取，得到样本特征数据；将所述样本特征数据输入至光学字符识别模型，以确定所述样本特征数据中的文字区域对应的局部特征数据，并提取所述局部特征数据中的语义信息，根据所述语义信息，确定所述文字区域的预测类别；根据所述预测类别和所述文字区域的标签类别，对所述光学字符识别模型进行训练。本公开提高了光学字符识别模型的类别预测结果的准确度。

26.

发明授权
文本抽取方法、文本抽取模型训练方法、装置及设备有权

公开(公告)号：CN114821622B

公开(公告)日：2023-07-21

申请号：CN202210234230.9

申请日：2022-03-10

Applicant: 北京百度网讯科技有限公司

Inventor： 钦夏孟 , 张晓强 , 黄聚 , 李煜林 , 谢群义 , 姚锟 , 韩钧宇

IPC: G06V30/416 , G06V30/414 , G06V30/42 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08

Abstract: 本公开提供了一种文本抽取方法、文本抽取模型训练方法、装置及设备，涉及人工智能技术领域，尤其涉及计算机视觉技术领域。具体实现方案为：获取待检测图像的视觉编码特征；从待检测图像中提取多组多模态特征，其中，每组多模态特征包括从待检测图像中提取的一个检测框的位置信息、该检测框中的检测特征以及该检测框中的第一文本信息；基于视觉编码特征、待抽取属性以及多组多模态特征，从多组多模态特征包括的第一文本信息中，获取与待抽取属性匹配的第二文本信息，待抽取属性为需要被抽取的文本信息的属性。该方案可以对多种版式的证件票据进行文本信息抽取，提高了抽取效率。

27.

发明授权
基于图像的文本获取方法、装置、电子设备及存储介质有权

公开(公告)号：CN114937277B

公开(公告)日：2023-04-11

申请号：CN202210543075.9

申请日：2022-05-18

Applicant: 北京百度网讯科技有限公司

Inventor： 曹健健 , 李煜林 , 钦夏孟 , 姚锟

IPC: G06V30/413 , G06V30/18 , G06V30/19 , G06V10/82

Abstract: 本公开提供了一种基于图像的文本获取方法、装置、电子设备及存储介质，涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于光学字符识别(Optical Character Recognition，OCR)等场景。具体实现方案为：获取文档图像，文档图像包括：文本内容，获取文档图像的图像网格特征，根据图像网格特征，获取与文本内容对应的视觉语义特征，根据视觉语义特征，从文档图像中获取目标文本。由于文档图像的图像网格特征能够表征文档图像中所包含内容的空间维度特征和语义维度特征，实现联合文档图像的空间维度特征和语义维度特征，识别出文档图像中所包含文本内容的视觉语义特征，有效丰富了视觉语义特征的空间语义信息，有效提升目标文本获取的准确性。

28.

发明授权
文本识别模型框架的训练方法、装置及系统有权

公开(公告)号：CN113591864B

公开(公告)日：2023-04-07

申请号：CN202110858410.X

申请日：2021-07-28

Applicant: 北京百度网讯科技有限公司

Inventor： 章成全 , 吕鹏原 , 李煜林 , 庾悦晨 , 姚锟 , 韩钧宇 , 刘经拓 , 丁二锐 , 吴甜 , 王海峰

IPC: G06V30/148 , G06V30/19 , G06V10/80 , G06V30/18

Abstract: 本公开提供了一种文本识别模型框架的训练方法、装置及系统，涉及人工智能技术领域，具体为计算机视觉和深度学习技术领域，可应用于智慧城市和智慧金融场景。包括：基于预设的文本检测模型对样本图像进行特征处理，得到与样本图像中文本信息相关的至少两种特征信息，基于预设的特征融合模型对样本图像的至少两种特征信息进行融合处理，得到样本图像的融合特征，将融合特征输入至特征融合模型，基于融合特征模型对文本检测模型和特征融合模型的参数分别进行调整，得到文本识别模型框架，文本识别模型框架中的文本检测模型与特征融合模型之间具有较高的关联性，从而实现了训练过程的完整性和全面性，提高了文本识别模型框架的准确性和可靠性。

29.

发明授权
信息提取方法、装置、电子设备和介质有权

公开(公告)号：CN114863439B

公开(公告)日：2023-02-17

申请号：CN202210546057.6

申请日：2022-05-19

Applicant: 北京百度网讯科技有限公司

Inventor： 李煜林 , 钦夏孟 , 章成全 , 姚锟

IPC: G06F40/30 , G06V30/18 , G06V10/82 , G06N3/08 , G06N3/0464

Abstract: 本公开提供了一种信息提取方法、装置、电子设备和介质，涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉等技术领域，可应用于OCR等场景。实现方案为：对第一文档图像进行编码，以得到多个尺度的目标特征图，并对查询信息进行编码，以得到目标文本特征；对目标特征图和目标文本特征进行融合，以得到目标融合特征；根据目标融合特征，提取第一文档图像中与查询信息中的设定实体词匹配的结构化信息。由此，可以实现从文档图像中提取与查询信息中用户所需的实体词匹配的结构化信息，以满足用户的实际提取需求，改善用户的使用体验；并且，通过自动提取结构化信息，可以提高待办事件的处理效率，支持企业办公智能化进程。

30.

发明公开
信息生成方法、装置、电子设备以及存储介质有权

公开(公告)号：CN115497113A

公开(公告)日：2022-12-20

申请号：CN202211219460.4

申请日：2022-09-30

Applicant: 北京百度网讯科技有限公司

Inventor： 于海鹏 , 李煜林 , 钦夏孟 , 姚锟

IPC: G06V30/412 , G06V30/18 , G06V30/19 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/04 , G06N3/08

Abstract: 本公开提供了一种信息生成方法、装置、电子设备以及存储介质，涉及人工智能技术领域，尤其涉及图像处理、计算机视觉和深度学习技术领域，可应用于OCR等场景。具体实现方案为：对文本表格图像进行处理，得到文本表格图像中各文本区域的局部特征信息和文本识别信息；对局部特征信息进行列分类，得到各文本区域的列分类信息；根据局部特征信息，确定各文本区域之间的相似度；根据相似度，确定各文本区域的行分类信息；根据行分类信息、列分类信息和文本识别信息，生成文本表格图像的结构化信息。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification