同义文本获取方法、装置、电子设备及存储介质

    公开(公告)号:CN111881669B

    公开(公告)日:2023-06-09

    申请号:CN202010587761.7

    申请日:2020-06-24

    Abstract: 本申请公开了同义文本获取方法、装置、电子设备及存储介质,涉及智能搜索及深度学习领域,其中的方法可包括:针对待处理的第一文本,按照预定方式获取对应的模板形式的第一文本,所述预定方式包括:对文本进行实体识别,得到识别出的实体类型和实体值,并用识别出的实体类型作为槽位替换文本中的对应实体值;利用预先训练得到的翻译模型生成模板形式的第一文本对应的同义的模板形式的第二文本;利用识别出的待处理的第一文本的实体值替换模板形式的第二文本中的对应实体类型,得到待处理的第一文本的同义文本。应用本申请所述方案,可提升同义文本的召回能力等。

    样本处理方法、装置、设备和存储介质

    公开(公告)号:CN109242106B

    公开(公告)日:2022-07-26

    申请号:CN201811043185.9

    申请日:2018-09-07

    Abstract: 根据本公开的示例实施例,提供了样本处理方法、装置、设备和计算机可读存储介质。样本处理方法包括确定样本集中的样本的特征表示,每个样本具有预先标注的类别。该方法还包括基于特征表示,对样本集进行聚类,以得到包括一个或多个样本的簇。该方法进一步包括基于簇中的样本的类别,确定簇的纯度,纯度指示簇的样本混乱程度。该方法进一步包括基于纯度,从簇中的样本确定经筛选样本。以此方式,能够实现对整个样本集的筛选,从而获得高质量的标注样本。

    用于确定实体类别的方法、装置、设备以及计算机可读存储介质

    公开(公告)号:CN109284374B

    公开(公告)日:2024-07-05

    申请号:CN201811043184.4

    申请日:2018-09-07

    Inventor: 程健一 赵岷

    Abstract: 根据本公开的示例实施例,提供了一种用于确定实体类别的方法、装置、设备以及计算机可读存储介质。方法包括根据实体的后缀获得与后缀相关联的后缀特征,并且基于实体的实体名来确定实体的候选类别。方法还包括基于候选类别和后缀特征来确定实体的类别集合。本公开的实施例通过实体后缀获得后缀特征并且通过分类模型获得实体的候选类别,然后结合后缀特征和候选类别二者来获得实体的类别,从而能够准确且精细地确定实体的类别。

    同义文本获取方法、装置、电子设备及存储介质

    公开(公告)号:CN111881669A

    公开(公告)日:2020-11-03

    申请号:CN202010587761.7

    申请日:2020-06-24

    Abstract: 本申请公开了同义文本获取方法、装置、电子设备及存储介质,涉及智能搜索及深度学习领域,其中的方法可包括:针对待处理的第一文本,按照预定方式获取对应的模板形式的第一文本,所述预定方式包括:对文本进行实体识别,得到识别出的实体类型和实体值,并用识别出的实体类型作为槽位替换文本中的对应实体值;利用预先训练得到的翻译模型生成模板形式的第一文本对应的同义的模板形式的第二文本;利用识别出的待处理的第一文本的实体值替换模板形式的第二文本中的对应实体类型,得到待处理的第一文本的同义文本。应用本申请所述方案,可提升同义文本的召回能力等。

    样本处理方法、装置、设备和存储介质

    公开(公告)号:CN109242106A

    公开(公告)日:2019-01-18

    申请号:CN201811043185.9

    申请日:2018-09-07

    Abstract: 根据本公开的示例实施例,提供了样本处理方法、装置、设备和计算机可读存储介质。样本处理方法包括确定样本集中的样本的特征表示,每个样本具有预先标注的类别。该方法还包括基于特征表示,对样本集进行聚类,以得到包括一个或多个样本的簇。该方法进一步包括基于簇中的样本的类别,确定簇的纯度,纯度指示簇的样本混乱程度。该方法进一步包括基于纯度,从簇中的样本确定经筛选样本。以此方式,能够实现对整个样本集的筛选,从而获得高质量的标注样本。

Patent Agency Ranking