-
公开(公告)号:CN112567361B
公开(公告)日:2025-01-28
申请号:CN201980034238.7
申请日:2019-05-06
Applicant: 微软技术许可有限责任公司
IPC: G06F16/532 , G06F16/583
Abstract: 一种视觉搜索系统包括计算设备,该计算设备包括:图像处理引擎,用于生成表示图像输入中的用户所选择对象的特征矢量;对象检测引擎,用于在图像输入中定位一个或多个对象并且用于从图像输入中的对象确定用户所选择对象的类别,对象检测引擎使用类别生成针对用户所选择对象的多个属性;用于存储多个表的产品数据存储,多个表存储与用户所选择对象的类别相关联的一个或多个属性;属性生成引擎,用于为用户所选择对象的每个属性生成多个属性选项;以及属性匹配引擎,用于比较用户所选择对象的属性和属性选项以及视觉上相似的产品和图像的属性和属性选项。
-
公开(公告)号:CN114341839A
公开(公告)日:2022-04-12
申请号:CN202080062008.4
申请日:2020-06-17
Applicant: 微软技术许可有限责任公司
IPC: G06F16/58 , G06F16/332 , G06F40/35
Abstract: 本文中描述了一种视觉搜索引擎。该视觉搜索引擎被配置为基于从客户端计算设备接收的多模态查询(其中多模态查询包括图像和文本)向客户端计算设备返回信息。该视觉搜索引擎还被配置为与客户端计算设备的用户进行交互以消除用户的信息检索意图的歧义。
-
公开(公告)号:CN112673369A
公开(公告)日:2021-04-16
申请号:CN201980047024.3
申请日:2019-06-18
Applicant: 微软技术许可有限责任公司
IPC: G06F16/50 , G06F16/35 , G06F16/583
Abstract: 代表性实施例公开了用于对图像执行可视意图分类或者可视意图检测或者两者的机制。可视意图分类利用根据分类分类法来对所述图像中的对象进行分类的训练过的机器学习模型。可视意图分类可以被用作用于发起进一步动作的预触发机制以大大节省处理时间。示例进一步动作包括用户场景、查询定制、用户体验增强等。可视意图检测利用训练过的机器学习模型来标识图像中的对象,在所述图像周围放置边界框,并且根据所述分类法来对所述对象进行分类。所述训练过的机器学习模型利用多个特征检测器、多层预测、多标签分类器和边界框回归。
-
公开(公告)号:CN112567361A
公开(公告)日:2021-03-26
申请号:CN201980034238.7
申请日:2019-05-06
Applicant: 微软技术许可有限责任公司
IPC: G06F16/532 , G06F16/583
Abstract: 一种视觉搜索系统包括计算设备,该计算设备包括:图像处理引擎,用于生成表示图像输入中的用户所选择对象的特征矢量;对象检测引擎,用于在图像输入中定位一个或多个对象并且用于从图像输入中的对象确定用户所选择对象的类别,对象检测引擎使用类别生成针对用户所选择对象的多个属性;用于存储多个表的产品数据存储,多个表存储与用户所选择对象的类别相关联的一个或多个属性;属性生成引擎,用于为用户所选择对象的每个属性生成多个属性选项;以及属性匹配引擎,用于比较用户所选择对象的属性和属性选项以及视觉上相似的产品和图像的属性和属性选项。
-
公开(公告)号:CN112673369B
公开(公告)日:2024-09-06
申请号:CN201980047024.3
申请日:2019-06-18
Applicant: 微软技术许可有限责任公司
IPC: G06F16/50 , G06F16/35 , G06F16/583
Abstract: 代表性实施例公开了用于对图像执行可视意图分类或者可视意图检测或者两者的机制。可视意图分类利用根据分类分类法来对所述图像中的对象进行分类的训练过的机器学习模型。可视意图分类可以被用作用于发起进一步动作的预触发机制以大大节省处理时间。示例进一步动作包括用户场景、查询定制、用户体验增强等。可视意图检测利用训练过的机器学习模型来标识图像中的对象,在所述图像周围放置边界框,并且根据所述分类法来对所述对象进行分类。所述训练过的机器学习模型利用多个特征检测器、多层预测、多标签分类器和边界框回归。
-
公开(公告)号:CN112840398B
公开(公告)日:2024-07-19
申请号:CN201980068378.6
申请日:2019-09-05
Applicant: 微软技术许可有限责任公司
Abstract: 本文描述了用于将音频内容变换为图像的技术。该技术可以包括:从源接收音频内容;将音频内容转换为音频特征时间流;以及使用经机器训练的一个或多个模型,将音频特征流转换为一个或多个图像。该技术基于对如下各项的识别来生成(多个)图像:传达与音频内容相关联的一个或多个语义主题的语义信息;以及传达与音频内容相关联的一个或多个情感的情感信息。该技术然后生成包括(多个)图像的输出表示,其将输出表示提供给一个或多个显示设备以用于在那里显示。输出表示用作音频内容的显著语义以及情感相关特性的概要。
-
公开(公告)号:CN112840398A
公开(公告)日:2021-05-25
申请号:CN201980068378.6
申请日:2019-09-05
Applicant: 微软技术许可有限责任公司
Abstract: 本文描述了用于将音频内容变换为图像的技术。该技术可以包括:从源接收音频内容;将音频内容转换为音频特征时间流;以及使用经机器训练的一个或多个模型,将音频特征流转换为一个或多个图像。该技术基于对如下各项的识别来生成(多个)图像:传达与音频内容相关联的一个或多个语义主题的语义信息;以及传达与音频内容相关联的一个或多个情感的情感信息。该技术然后生成包括(多个)图像的输出表示,其将输出表示提供给一个或多个显示设备以用于在那里显示。输出表示用作音频内容的显著语义以及情感相关特性的概要。
-
-
-
-
-
-