-
公开(公告)号:CN109242106B
公开(公告)日:2022-07-26
申请号:CN201811043185.9
申请日:2018-09-07
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 根据本公开的示例实施例,提供了样本处理方法、装置、设备和计算机可读存储介质。样本处理方法包括确定样本集中的样本的特征表示,每个样本具有预先标注的类别。该方法还包括基于特征表示,对样本集进行聚类,以得到包括一个或多个样本的簇。该方法进一步包括基于簇中的样本的类别,确定簇的纯度,纯度指示簇的样本混乱程度。该方法进一步包括基于纯度,从簇中的样本确定经筛选样本。以此方式,能够实现对整个样本集的筛选,从而获得高质量的标注样本。
-
公开(公告)号:CN109189941A
公开(公告)日:2019-01-11
申请号:CN201811044261.8
申请日:2018-09-07
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/36
Abstract: 本公开的实施例涉及用于更新模型参数的方法、装置、设备和计算机可读存储介质。该方法包括:基于预定义的概念体系中的概念之间的关联性,确定用于训练概念分析模型的概念对的集合,概念对的集合中的每个概念对包括第一概念和与第一概念相关联的第二概念;以及将概念对的集合应用于概念分析模型,以使得概念分析模型至少基于概念对的集合来更新概念分析模型的参数集,从而提高概念对的集合中的每个概念对的第一概念通过概念分析模型而与第二概念相匹配的度量。由此,在文本处理任务中,可以为每个概念词语引入概念层次结构上的相似信息,从而使得能够丰富概念词语的特征表示,进而能够提升文本处理算法的效果。
-
公开(公告)号:CN109242106A
公开(公告)日:2019-01-18
申请号:CN201811043185.9
申请日:2018-09-07
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 根据本公开的示例实施例,提供了样本处理方法、装置、设备和计算机可读存储介质。样本处理方法包括确定样本集中的样本的特征表示,每个样本具有预先标注的类别。该方法还包括基于特征表示,对样本集进行聚类,以得到包括一个或多个样本的簇。该方法进一步包括基于簇中的样本的类别,确定簇的纯度,纯度指示簇的样本混乱程度。该方法进一步包括基于纯度,从簇中的样本确定经筛选样本。以此方式,能够实现对整个样本集的筛选,从而获得高质量的标注样本。
-
-