-
公开(公告)号:CN111881669B
公开(公告)日:2023-06-09
申请号:CN202010587761.7
申请日:2020-06-24
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F40/247 , G06F40/295 , G06F40/30 , G06F18/214
Abstract: 本申请公开了同义文本获取方法、装置、电子设备及存储介质,涉及智能搜索及深度学习领域,其中的方法可包括:针对待处理的第一文本,按照预定方式获取对应的模板形式的第一文本,所述预定方式包括:对文本进行实体识别,得到识别出的实体类型和实体值,并用识别出的实体类型作为槽位替换文本中的对应实体值;利用预先训练得到的翻译模型生成模板形式的第一文本对应的同义的模板形式的第二文本;利用识别出的待处理的第一文本的实体值替换模板形式的第二文本中的对应实体类型,得到待处理的第一文本的同义文本。应用本申请所述方案,可提升同义文本的召回能力等。
-
公开(公告)号:CN109242106B
公开(公告)日:2022-07-26
申请号:CN201811043185.9
申请日:2018-09-07
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 根据本公开的示例实施例,提供了样本处理方法、装置、设备和计算机可读存储介质。样本处理方法包括确定样本集中的样本的特征表示,每个样本具有预先标注的类别。该方法还包括基于特征表示,对样本集进行聚类,以得到包括一个或多个样本的簇。该方法进一步包括基于簇中的样本的类别,确定簇的纯度,纯度指示簇的样本混乱程度。该方法进一步包括基于纯度,从簇中的样本确定经筛选样本。以此方式,能够实现对整个样本集的筛选,从而获得高质量的标注样本。
-
公开(公告)号:CN109189941A
公开(公告)日:2019-01-11
申请号:CN201811044261.8
申请日:2018-09-07
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/36
Abstract: 本公开的实施例涉及用于更新模型参数的方法、装置、设备和计算机可读存储介质。该方法包括:基于预定义的概念体系中的概念之间的关联性,确定用于训练概念分析模型的概念对的集合,概念对的集合中的每个概念对包括第一概念和与第一概念相关联的第二概念;以及将概念对的集合应用于概念分析模型,以使得概念分析模型至少基于概念对的集合来更新概念分析模型的参数集,从而提高概念对的集合中的每个概念对的第一概念通过概念分析模型而与第二概念相匹配的度量。由此,在文本处理任务中,可以为每个概念词语引入概念层次结构上的相似信息,从而使得能够丰富概念词语的特征表示,进而能够提升文本处理算法的效果。
-
公开(公告)号:CN105354286A
公开(公告)日:2016-02-24
申请号:CN201510729112.5
申请日:2015-10-30
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明提出一种规章类问题的查询方法和装置,该规章类问题的查询方法包括:获取可供选择的数据,所述可供选择的数据包括如下项中的一项或多项:规章知识库提供的数据、客服系统提供的数据;接收用户输入的规章类问题,根据所述规章类问题和所述可供选择的数据,进行如下处理中的一项或多项:查询、推理、服务匹配,得到查询结果或多轮交互信息;通过用户界面将所述查询结果或多轮交互信息展示给用户。该方法能够更好的满足用户对规章类问题的查询需求。
-
公开(公告)号:CN109284374A
公开(公告)日:2019-01-29
申请号:CN201811043184.4
申请日:2018-09-07
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 根据本公开的示例实施例,提供了一种用于确定实体类别的方法、装置、设备以及计算机可读存储介质。方法包括根据实体的后缀获得与后缀相关联的后缀特征,并且基于实体的实体名来确定实体的候选类别。方法还包括基于候选类别和后缀特征来确定实体的类别集合。本公开的实施例通过实体后缀获得后缀特征并且通过分类模型获得实体的候选类别,然后结合后缀特征和候选类别二者来获得实体的类别,从而能够准确且精细地确定实体的类别。
-
公开(公告)号:CN109284374B
公开(公告)日:2024-07-05
申请号:CN201811043184.4
申请日:2018-09-07
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 根据本公开的示例实施例,提供了一种用于确定实体类别的方法、装置、设备以及计算机可读存储介质。方法包括根据实体的后缀获得与后缀相关联的后缀特征,并且基于实体的实体名来确定实体的候选类别。方法还包括基于候选类别和后缀特征来确定实体的类别集合。本公开的实施例通过实体后缀获得后缀特征并且通过分类模型获得实体的候选类别,然后结合后缀特征和候选类别二者来获得实体的类别,从而能够准确且精细地确定实体的类别。
-
公开(公告)号:CN111881669A
公开(公告)日:2020-11-03
申请号:CN202010587761.7
申请日:2020-06-24
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F40/247 , G06F40/295 , G06F40/30 , G06K9/62
Abstract: 本申请公开了同义文本获取方法、装置、电子设备及存储介质,涉及智能搜索及深度学习领域,其中的方法可包括:针对待处理的第一文本,按照预定方式获取对应的模板形式的第一文本,所述预定方式包括:对文本进行实体识别,得到识别出的实体类型和实体值,并用识别出的实体类型作为槽位替换文本中的对应实体值;利用预先训练得到的翻译模型生成模板形式的第一文本对应的同义的模板形式的第二文本;利用识别出的待处理的第一文本的实体值替换模板形式的第二文本中的对应实体类型,得到待处理的第一文本的同义文本。应用本申请所述方案,可提升同义文本的召回能力等。
-
公开(公告)号:CN105354286B
公开(公告)日:2019-05-03
申请号:CN201510729112.5
申请日:2015-10-30
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/953
Abstract: 本发明提出一种规章类问题的查询方法和装置,该规章类问题的查询方法包括:获取可供选择的数据,所述可供选择的数据包括如下项中的一项或多项:规章知识库提供的数据、客服系统提供的数据;接收用户输入的规章类问题,根据所述规章类问题和所述可供选择的数据,进行如下处理中的一项或多项:查询、推理、服务匹配,得到查询结果或多轮交互信息;通过用户界面将所述查询结果或多轮交互信息展示给用户。该方法能够更好的满足用户对规章类问题的查询需求。
-
公开(公告)号:CN109242106A
公开(公告)日:2019-01-18
申请号:CN201811043185.9
申请日:2018-09-07
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 根据本公开的示例实施例,提供了样本处理方法、装置、设备和计算机可读存储介质。样本处理方法包括确定样本集中的样本的特征表示,每个样本具有预先标注的类别。该方法还包括基于特征表示,对样本集进行聚类,以得到包括一个或多个样本的簇。该方法进一步包括基于簇中的样本的类别,确定簇的纯度,纯度指示簇的样本混乱程度。该方法进一步包括基于纯度,从簇中的样本确定经筛选样本。以此方式,能够实现对整个样本集的筛选,从而获得高质量的标注样本。
-
-
-
-
-
-
-
-