-
公开(公告)号:CN118568515A
公开(公告)日:2024-08-30
申请号:CN202410674677.7
申请日:2024-05-28
Applicant: 北京百度网讯科技有限公司
IPC: G06F18/22 , G06F18/213 , G06N3/045 , G06N3/0499 , G06F40/20
Abstract: 本公开提供了一种确定文本处理任务相似度的方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及自然语言处理和深度学习等技术领域。该包括:确定第一任务、第二任务和待训练神经网络,待训练神经网络包括多个网络模块和与多个网络模块对应的多个重要性系数,多个重要性系数分别用于缩放对应的网络模块的输出值;分别将第一任务和第二任务作为目标任务执行目标操作,以得到第一任务和第二任务各自的嵌入特征,目标操作包括:利用目标任务对应的文本样本训练待训练神经网络,并获取训练后的多个重要性系数;基于训练后的多个重要性系数,确定目标任务的嵌入特征;基于第一任务和第二任务各自的嵌入特征,确定第一任务和第二任务的任务相似度。
-
公开(公告)号:CN114495143B
公开(公告)日:2024-03-22
申请号:CN202111596384.4
申请日:2021-12-24
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/414 , G06V30/416 , G06V10/82 , G06F40/14 , G06F40/205 , G06F40/247 , G06F40/295 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了一种文本对象识别方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及自然语言处理、知识图谱等领域。具体实现方案为:对文档数据进行文档结构解析,得到文档树;根据所述文档树,得到文本对象在所述文档数据中的章节范围;从所述文档数据中的章节范围,识别出所述文本对象。采用本公开,可以从大量的文档数据中识别出不同行业的行业术语。
-
公开(公告)号:CN114218931B
公开(公告)日:2024-01-23
申请号:CN202111300797.3
申请日:2021-11-04
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/279 , G06F40/30 , G06F16/35 , G06F18/2431 , G06F18/214 , G06N3/02
Abstract: 本公开提供了一种信息抽取方法、装置、电子设备和可读存储介质,涉及人工智能技术领域,具体为知识图谱技术领域。其中,信息抽取方法包括:获取待处理文本,得到所述待处理文本中每个字符的语义向量;根据所述待处理文本中的每个字符与每个字符的语义向量,分别生成关系预测矩阵、实体预测矩阵与对齐矩阵;使用所述关系预测矩阵、实体预测矩阵与对齐矩阵,抽取所述待处理文本中的目标三元组,将所述目标三元组作为所述待处理文本的信息抽取结果。本公开能够抽取文本中所存在的重叠三元组,扩展
-
公开(公告)号:CN111339250B
公开(公告)日:2023-08-18
申请号:CN202010104207.9
申请日:2020-02-20
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/33 , G06F16/36 , G06F18/214 , G06N3/0464
Abstract: 本公开提供了一种新类别标签的挖掘方法,涉及知识图谱技术领域,包括:获取当前预设时间段内的多个搜索文本;针对每个所述搜索文本,利用预先训练好的序列标注模型,对该搜索文本进行类别标签的标注,以从该搜索文本中提取出该搜索文本当前对应的类别标签;去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签。本公开还提供了新类别标签的挖掘装置、电子设备及计算机可读介质。
-
公开(公告)号:CN111259624B
公开(公告)日:2023-03-31
申请号:CN202010042297.3
申请日:2020-01-15
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/117 , G06F40/169 , G06F40/295
Abstract: 本申请公开了知识图谱中三元组数据标注方法和装置,涉及人工智能领域,其中,方法包括:按照预设的规则计算目标三元组数据的置信度;若目标三元组数据的置信度大于阈值,则根据目标三元组数据的热度,确定目标三元组数据的调度优先级;根据目标关系的时效性及目标主体的歧义性,确定目标三元组数据的标注模式;根据目标三元组数据的调度优先级及标注模式,对目标三元组数据进行标注。该方法在对知识图谱中三元组数据标注前,先通过置信度将准确率低的三元组数据过滤掉,对于置信度高的三元组数据,根据调度优先级和标注模式进行标注,从而将三元组数据的标注分为多层,通过分层完成数据的标注处理,提升了标注准确率和效率,降低了人工成本。
-
公开(公告)号:CN114495143A
公开(公告)日:2022-05-13
申请号:CN202111596384.4
申请日:2021-12-24
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/414 , G06V30/416 , G06F40/14 , G06F40/205 , G06F40/247 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本公开提供了一种文本对象识别方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及自然语言处理、知识图谱等领域。具体实现方案为:对文档数据进行文档结构解析,得到文档树;根据所述文档树,得到文本对象在所述文档数据中的章节范围;从所述文档数据中的章节范围,识别出所述文本对象。采用本公开,可以从大量的文档数据中识别出不同行业的行业术语。
-
公开(公告)号:CN114398943A
公开(公告)日:2022-04-26
申请号:CN202111501568.8
申请日:2021-12-09
Applicant: 北京百度网讯科技有限公司
IPC: G06K9/62 , G06F40/30 , G06F40/242 , G06F40/247 , G06F40/289 , G06F16/35
Abstract: 本公开提供了一种样本增强方法及其装置,涉及人工智能领域,尤其涉及知识图谱和自然语言处理领域。具体实现方案为:对标注有第一三元组信息的第一样本语料进行数据增强,获取增强的第二样本语料和第二样本语料的第二三元组信息;对无三元组信息的第三样本语料进行半监督学习,以获取第三样本语料的第三三元组信息;根据第一样本语料和第一三元组信息、第二样本语料和第二三元组信息,以及第三样本语料和第三三元组信息,生成三元组信息抽取网络的训练语料集。本申请对样本语料进行多种方式下的数据增强,从而可以在样本语料较少的情况下也能生成较高质量的语料,减少了语义丧失,提升三元组信息抽取的效果,且不需要大量对样本语料进行标注。
-
公开(公告)号:CN114265942A
公开(公告)日:2022-04-01
申请号:CN202111590166.X
申请日:2021-12-23
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/36 , G06F16/335 , G06F16/35 , G06F40/295 , G06N5/02
Abstract: 本公开提供了一种知识单元抽取方法、装置、设备和介质,涉及计算机数据处理技术领域,尤其涉及人工智能、自然语言处理和深度学习技术。具体实现方案为:从目标文档中识别获取多个键值对;从所述目标文档中,获取所述键值对所从属的文档结构信息;从所述文档结构信息中识别获取实体;建立实体和键值对之间的关联,以形成包括实体和键值对的知识单元。本公开可以提高文档中抽取知识单元的通用性和自动化程度。
-
公开(公告)号:CN114218951A
公开(公告)日:2022-03-22
申请号:CN202111545465.1
申请日:2021-12-16
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/295 , G06F40/30 , G06F16/35 , G06K9/62
Abstract: 本公开提供了实体识别模型的训练方法、实体识别方法及装置,涉及数据处理技术领域,尤其涉及知识图谱、深度学习等人工智能技术领域。具体技术方案包括:对第一训练集进行数据增强,得到增强后的第二训练集;基于第二训练集对第一实体识别模型进行训练,得到训练出的第二实体识别模型;通过第二实体识别模型对第三训练集进行实体标注,得到标注后的第四训练集;基于第四训练集对第一实体识别模型进行训练,得到训练出的第三实体识别模型。本公开的技术方案可提到精度较高的实体识别模型,可适用于小样本场景下的实体识别。
-
公开(公告)号:CN114218931A
公开(公告)日:2022-03-22
申请号:CN202111300797.3
申请日:2021-11-04
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/279 , G06F40/30 , G06F16/35 , G06K9/62 , G06N3/02
Abstract: 本公开提供了一种信息抽取方法、装置、电子设备和可读存储介质,涉及人工智能技术领域,具体为知识图谱技术领域。其中,信息抽取方法包括:获取待处理文本,得到所述待处理文本中每个字符的语义向量;根据所述待处理文本中的每个字符与每个字符的语义向量,分别生成关系预测矩阵、实体预测矩阵与对齐矩阵;使用所述关系预测矩阵、实体预测矩阵与对齐矩阵,抽取所述待处理文本中的目标三元组,将所述目标三元组作为所述待处理文本的信息抽取结果。本公开能够抽取文本中所存在的重叠三元组,扩展了信息抽取的应用场景,进一步提升了信息抽取的准确性与效率。
-
-
-
-
-
-
-
-
-