-
公开(公告)号:CN110929021B
公开(公告)日:2024-05-31
申请号:CN201811015508.3
申请日:2018-08-31
申请人: 阿里巴巴集团控股有限公司
IPC分类号: G06F16/34 , G06F16/9535 , G06F16/9536 , G06Q30/0282
摘要: 本申请公开了一种文本信息生成方法和文本信息生成装置。该文本信息生成方法包括:获取用户偏好信息和商品关联信息,所述商品关联信息包括商品的评论信息和/或描述信息;对所述商品关联信息分别进行分词处理和结构化处理;将所述用户偏好信息、分词处理后的商品关联信息和结构化处理后的商品关联信息输入机器学习模型,利用机器学习模型生成针对所述商品的文本信息。本发明实施例提出一种根据用户偏好信息生成针对商品的文本信息的方法和装置,能够生成符合用户偏好的文本信息,所生成的文本是按照用户偏好的维度有针对地对商品进行介绍,同时流利通顺。提高了用户根据文本信息获得商品相关信息的效率。
-
公开(公告)号:CN110929021A
公开(公告)日:2020-03-27
申请号:CN201811015508.3
申请日:2018-08-31
申请人: 阿里巴巴集团控股有限公司
IPC分类号: G06F16/34 , G06F16/9535 , G06F16/9536 , G06Q30/02
摘要: 本申请公开了一种文本信息生成方法和文本信息生成装置。该文本信息生成方法包括:获取用户偏好信息和商品关联信息,所述商品关联信息包括商品的评论信息和/或描述信息;对所述商品关联信息分别进行分词处理和结构化处理;将所述用户偏好信息、分词处理后的商品关联信息和结构化处理后的商品关联信息输入机器学习模型,利用机器学习模型生成针对所述商品的文本信息。本发明实施例提出一种根据用户偏好信息生成针对商品的文本信息的方法和装置,能够生成符合用户偏好的文本信息,所生成的文本是按照用户偏好的维度有针对地对商品进行介绍,同时流利通顺。提高了用户根据文本信息获得商品相关信息的效率。
-
公开(公告)号:CN110941705A
公开(公告)日:2020-03-31
申请号:CN201811099134.8
申请日:2018-09-20
申请人: 阿里巴巴集团控股有限公司
IPC分类号: G06F16/332 , G06F16/338 , G06F40/211 , G06F40/216 , G06F40/30
摘要: 本申请公开了一种干扰信息去除方法、去干扰模型组件及垃圾文本识别系统,涉及信息识别技术领域。方法包括:获取包括多个词的待处理文本;将待处理文本输入预先训练的去干扰模型组件,以便去干扰模型组件输出为待处理文本去除干扰信息后的目标文本,该目标文本包括去干扰模型组件逐步输出的多个目标词。本申请能够将待处理文本中的干扰信息去除,特别是在文本反垃圾过程中,可有效识别和去除干扰信息,为后续的信息处理提供了更为干净的语料。
-
公开(公告)号:CN110929138A
公开(公告)日:2020-03-27
申请号:CN201811024537.6
申请日:2018-09-04
申请人: 阿里巴巴集团控股有限公司
IPC分类号: G06F16/9535 , G06Q30/06
摘要: 本发明实施例公开了一种推荐信息生成方法、装置、设备及存储介质。该方法包括:获取预先生成的目标用户对应的个性化特征向量;获取向目标用户推荐的产品的属性向量以及产品对应的评论数据;将个性化特征向量、属性向量和评论数据输入预设的文本生成模型,以生成针对产品的推荐信息。本发明实施例的推荐信息生成方法、装置、设备及存储介质,推荐产品时可以同时推荐所生成的推荐信息,能够帮助用户更好的理解推荐该产品的原因,进而能够提高用户对于所推荐产品的点击率和转化率。
-
公开(公告)号:CN110929477B
公开(公告)日:2023-04-28
申请号:CN201811023100.0
申请日:2018-09-03
申请人: 阿里巴巴集团控股有限公司
IPC分类号: G06F40/129
摘要: 本申请公开了一种关键词变体的确定方法和装置。该方法包括如下步骤:将待测文本拆分为多个文本字符串;利用汉字在多种编码形式下的字形相似关系,获取所述文本字符串的异构图特征;利用所述异构图特征,通过机器学习模型确定所述文本字符串与预设的关键词的相似度;根据所述相似度判断所述文本字符串是否为所述关键词变体,以判断所述待测文本中是否包含所述关键字变体。在本发明实施例提出的方案中,不同的形码编码在各个维度刻画了字形的结构,综合使用多种编码方式形成异构图,可以形成了互补,比单纯用某一种形码能更好地计算字形相似度。通过异构图存储不同编码的字形相似度信息,可以加强字形间的传递关系,有效降低了误判。
-
公开(公告)号:CN109829033B
公开(公告)日:2023-04-18
申请号:CN201711182131.6
申请日:2017-11-23
申请人: 阿里巴巴集团控股有限公司
IPC分类号: G06F16/31 , G06F16/33 , G06F16/34 , G06F40/30 , G06Q30/0201 , G06Q30/0282
摘要: 本申请提供了一种数据展示方法和终端设备,其中,该数据展示方法包括:确定目标对象;获取来自于多个数据源的与所述目标对象相关的多媒体数据;从所述多媒体数据中确定出与所述目标对象相关的特征词;对确定出的特征词进行展示。相较于现有的仅通过一个数据源获取数据,以及展示的特征词都是预先设定好的方式相比,本例所提供的方案数据来源是随机的,展示的结果也是随机的,可以便于进行大范围的数据统计,将其应用到舆情数据中,可以实现对舆情数据的有效整合利用。
-
公开(公告)号:CN110941705B
公开(公告)日:2023-04-07
申请号:CN201811099134.8
申请日:2018-09-20
申请人: 阿里巴巴集团控股有限公司
IPC分类号: G06F16/332 , G06F16/338 , G06F40/211 , G06F40/216 , G06F40/30
摘要: 本申请公开了一种干扰信息去除方法、去干扰模型组件及垃圾文本识别系统,涉及信息识别技术领域。方法包括:获取包括多个词的待处理文本;将待处理文本输入预先训练的去干扰模型组件,以便去干扰模型组件输出为待处理文本去除干扰信息后的目标文本,该目标文本包括去干扰模型组件逐步输出的多个目标词。本申请能够将待处理文本中的干扰信息去除,特别是在文本反垃圾过程中,可有效识别和去除干扰信息,为后续的信息处理提供了更为干净的语料。
-
公开(公告)号:CN110929138B
公开(公告)日:2024-03-29
申请号:CN201811024537.6
申请日:2018-09-04
申请人: 阿里巴巴集团控股有限公司
IPC分类号: G06F16/9535 , G06Q30/0601
摘要: 本发明实施例公开了一种推荐信息生成方法、装置、设备及存储介质。该方法包括:获取预先生成的目标用户对应的个性化特征向量;获取向目标用户推荐的产品的属性向量以及产品对应的评论数据;将个性化特征向量、属性向量和评论数据输入预设的文本生成模型,以生成针对产品的推荐信息。本发明实施例的推荐信息生成方法、装置、设备及存储介质,推荐产品时可以同时推荐所生成的推荐信息,能够帮助用户更好的理解推荐该产品的原因,进而能够提高用户对于所推荐产品的点击率和转化率。
-
公开(公告)号:CN110929477A
公开(公告)日:2020-03-27
申请号:CN201811023100.0
申请日:2018-09-03
申请人: 阿里巴巴集团控股有限公司
IPC分类号: G06F40/129
摘要: 本申请公开了一种关键词变体的确定方法和装置。该方法包括如下步骤:将待测文本拆分为多个文本字符串;利用汉字在多种编码形式下的字形相似关系,获取所述文本字符串的异构图特征;利用所述异构图特征,通过机器学习模型确定所述文本字符串与预设的关键词的相似度;根据所述相似度判断所述文本字符串是否为所述关键词变体,以判断所述待测文本中是否包含所述关键字变体。在本发明实施例提出的方案中,不同的形码编码在各个维度刻画了字形的结构,综合使用多种编码方式形成异构图,可以形成了互补,比单纯用某一种形码能更好地计算字形相似度。通过异构图存储不同编码的字形相似度信息,可以加强字形间的传递关系,有效降低了误判。
-
公开(公告)号:CN109829033A
公开(公告)日:2019-05-31
申请号:CN201711182131.6
申请日:2017-11-23
申请人: 阿里巴巴集团控股有限公司
摘要: 本申请提供了一种数据展示方法和终端设备,其中,该数据展示方法包括:确定目标对象;获取来自于多个数据源的与所述目标对象相关的多媒体数据;从所述多媒体数据中确定出与所述目标对象相关的特征词;对确定出的特征词进行展示。相较于现有的仅通过一个数据源获取数据,以及展示的特征词都是预先设定好的方式相比,本例所提供的方案数据来源是随机的,展示的结果也是随机的,可以便于进行大范围的数据统计,将其应用到舆情数据中,可以实现对舆情数据的有效整合利用。
-
-
-
-
-
-
-
-
-