-
公开(公告)号:CN118152558A
公开(公告)日:2024-06-07
申请号:CN202410339155.1
申请日:2024-03-22
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/34 , G06F16/335 , G06F16/338
Abstract: 本公开提供了一种文档内容展示方法、模型训练方法、装置、设备及介质,涉及数据处理领域,可用于大数据、深度学习、文档处理、页面显示等技术领域,文档内容展示方法包括:获取待展示的目标文档;获取目标文档的文档特征和请求目标文档的用户的用户特征;根据文档特征和用户特征,确定目标文档的拦截率;按照拦截率,对目标文档进行内容展示。从而,有针对性地为文档确定个性化的拦截率,提高文档内容展示量的合理性,进而提高文档的转化率。
-
公开(公告)号:CN111222328A
公开(公告)日:2020-06-02
申请号:CN201811469780.9
申请日:2018-11-26
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F40/289 , G06F40/216 , G06F16/335
Abstract: 本发明公开了一种标签提取方法、装置和电子设备,其中,方法包括:对待处理的文本数据进行分词,以得到所述文本数据对应的分词序列,所述分词序列包括按照分词顺序排列的多个分词;获取所述分词序列中每个分词的左熵和右熵;对所述分词序列中的分词进行依存分析,得到所述分词序列中各个分词之间的依赖关系;根据所述依赖关系,对所述分词序列中的所述多个分词进行分割,得到分词集合;根据所述分词集合、每个分词的左熵和右熵,确定所述文本数据的目标标签。该方法结合分词的左熵和右熵以及依赖关系,能实现词与词进行组合得到具有一定语义信息的较长的标签的提取,提高了标签提取的准确性,从而方便用户更加深刻的理解和运用文本数据。
-
公开(公告)号:CN119227678A
公开(公告)日:2024-12-31
申请号:CN202411345466.5
申请日:2024-09-25
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F40/279 , G06F18/21 , G06F18/213 , G06F18/25 , G06F18/214
Abstract: 本公开提供了一种文档识别方法、文档识别模型的训练方法及装置,涉及人工智能技术领域,尤其涉及深度学习和大数据技术领域。文档识别方法包括:对文档中文档页面的多模态数据进行各个模态的特征提取,得到多个模态特征;根据多个模态特征各自的注意力特征,确定文档页面的第一融合特征;以及根据文档页面的第一融合特征,确定文档的识别结果。本公开还提供了一种电子设备、计算机可读存储介质和计算机程序产品。
-
公开(公告)号:CN119047438A
公开(公告)日:2024-11-29
申请号:CN202410939446.4
申请日:2024-07-12
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F40/174 , G06T11/60 , G06N5/04
Abstract: 本公开提供了图片插入方法、装置、电子设备及存储介质,涉及深度学习、大模型、自然语言处理以及计算机视觉等人工智能领域。其中的方法可包括:响应于确定用户需要向目标文本中的任一章节插入图片,获取待插入的目标图片;响应于确定目标图片与该章节的章节文本内容相关,从章节文本内容中包括的各段落内容中选出与目标图片最为匹配的段落内容,作为目标内容,根据目标内容确定出目标图片的插入位置并进行插入。
-
公开(公告)号:CN110781292A
公开(公告)日:2020-02-11
申请号:CN201810828188.7
申请日:2018-07-25
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/35
Abstract: 本申请提出一种文本数据多层次分类方法、装置、电子设备和存储介质,其中,装置包括:数据层及多级子分类组件,数据层用于将文本数据进行向量编码处理,以生成与文本数据对应的词向量;每级子分类组件用于对数据层生成的词向量及前一级子分类组件生成的分类结果,进行特征提取及分类处理,以确定文本数据在该级所属的类别。该分类装置通过将上一级子分类组件的分类结果,作为下一级子分类组件的分类依据,从而利用层次化的父子关系对文本数据进行逐级分类,提高了层次分类结果的准确性。
-
公开(公告)号:CN107818091A
公开(公告)日:2018-03-20
申请号:CN201610815787.6
申请日:2016-09-12
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30634 , G06F17/30876
Abstract: 本发明提供一种文档处理方法和装置。所述方法包括:根据多个历史文档查询请求,挖掘文档查询的核心词;根据所述核心词,挂载所述核心词对应的文档,以在收到包括所述核心词对应的文档查询请求时,展示所述核心词对应的所述文档。通过采用本发明的技术方案,能够使得互联网公司的文库资源被有效地展现,从而在文档查询请求时可以获取到更多的文档查询结果,也能够有效地提高文档查询的效果。
-
公开(公告)号:CN107818091B
公开(公告)日:2023-01-06
申请号:CN201610815787.6
申请日:2016-09-12
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/33 , G06F16/955
Abstract: 本发明提供一种文档处理方法和装置。所述方法包括:根据多个历史文档查询请求,挖掘文档查询的核心词;根据所述核心词,挂载所述核心词对应的文档,以在收到包括所述核心词对应的文档查询请求时,展示所述核心词对应的所述文档。通过采用本发明的技术方案,能够使得互联网公司的文库资源被有效地展现,从而在文档查询请求时可以获取到更多的文档查询结果,也能够有效地提高文档查询的效果。
-
公开(公告)号:CN110717033A
公开(公告)日:2020-01-21
申请号:CN201810668995.7
申请日:2018-06-26
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种文本分类噪声监测方法、装置、设备及计算机可读介质。该方法包括:获得属于同一文本类别的标题对的相似度分布,所述标题对的相似度为属于同一文本类别的任意两个标题的相似度;根据设定的置信水平,获取所述相似度分布的置信区间;根据所述相似度分布的置信区间,确定出噪声标题对。本发明实施例通过计算标题对之间的相似度,可以获取对应的相似度分布,通过相似度分布的置信区间确定噪声样本,从而可以保证噪声监测的准确性。
-
公开(公告)号:CN104536989A
公开(公告)日:2015-04-22
申请号:CN201410753684.2
申请日:2014-12-10
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
CPC classification number: G06F16/9535
Abstract: 本发明提供一种电子出版物的推荐方法及装置,通过获取指定电子出版物的标识信息,进而根据指定电子出版物的标识信息,获得指定电子出版物所属的推荐组,推荐组为根据至少两个电子出版物中每个电子出版物的属性数据和每个电子出版物的名称数据获得,使得能够展现推荐组中除了指定电子出版物之外的其他电子出版物,由于不再完全依赖电子出版物的标题执行推荐操作,而是结合电子出版物的属性数据,执行推荐操作,使得推荐结果即所展现的其他电子出版物能够基本满足用户的需求,因此,能够避免现有技术中由于用户通过应用反复浏览电子出版物列表或者反复进行搜索而导致的增加应用与服务器之间的数据交互的问题,从而降低了服务器的处理负担。
-
公开(公告)号:CN104536948A
公开(公告)日:2015-04-22
申请号:CN201410754250.4
申请日:2014-12-10
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提供一种版式文档的处理方法及装置。本发明实施例通过获取版式文档的元数据,进而根据所述版式文档的元数据,获得所述版式文档的标题,使得能够根据所述版式文档的标题,获得所述版式文档的目标目录数据,无需人工参与,操作简单,而且正确率高,从而提高了版式文档处理的效率和可靠性。
-
-
-
-
-
-
-
-
-