-
公开(公告)号:CN110543862B
公开(公告)日:2022-04-22
申请号:CN201910839264.9
申请日:2019-09-05
Applicant: 北京达佳互联信息技术有限公司
IPC: G06K9/62
Abstract: 本公开是关于一种数据获取方法、装置及存储介质,属于计算机技术领域。该方法包括:根据网络模型的识别对象,获取多个第一用户标识;对多个第一用户标识对应的原始数据进行聚类,得到每个原始数据的聚类标识;对于每个第一用户标识,根据第一用户标识对应的每个原始数据的聚类标识,确定第一用户标识的权重;从多个第一用户标识中选取至少一个第二用户标识,获取至少一个第二用户标识对应的原始数据,作为待标注的目标数据。第二用户标识对应的原始数据中不属于识别对象的目标数据较少,提高了待标注的目标数据的纯度,提高了技术人员筛选目标数据的速度,进而提高了标注效率。
-
公开(公告)号:CN109871896B
公开(公告)日:2022-03-25
申请号:CN201910143402.X
申请日:2019-02-26
Applicant: 北京达佳互联信息技术有限公司
Inventor: 张志伟
IPC: G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本申请是关于一种数据分类方法、装置、电子设备及存储介质。首先,获取待处理数据,并输入预先训练好的数据分类模型;利用数据分类模型,对待处理数据进行特征提取,分别采用第一映射算法和第二映射算法,将提取的特征映射为第一logits向量和第二logits向量;然后,根据第一logits向量计算待处理数据属于各个类别的预测置信度,并用预测置信度对第二logits向量进行调整;最后,根据调整后的第二logits向量,确定分类结果。由于数据分类模型利用预测置信度对第二logits向量进行调整,再将调整后的第二logits向量输入Softmax层计算预测概率,因此能够提高计算出待处理数据属于各个类别的预测概率的可靠性,从而减少误判、提高数据分类的准确性。
-
公开(公告)号:CN109657710B
公开(公告)日:2022-01-21
申请号:CN201811489982.X
申请日:2018-12-06
Applicant: 北京达佳互联信息技术有限公司
IPC: G06K9/62
Abstract: 本公开是关于一种数据筛选方法、装置、服务器及存储介质,属于互联网领域。该方法包括:采用分类模型对多个原始数据进行分类,得到每个原始数据的分类结果;基于分词工具和词向量模型,获取各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量;基于所述各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量,从所述多个原始数据中,确定目标数据。通过引入分词工具和词向量模型,使得原始数据中的文本信息能够以计算机可处理的向量形式表示,降低了人工标注带来的成本,增大了海量的原始数据的利用率。
-
公开(公告)号:CN113918822A
公开(公告)日:2022-01-11
申请号:CN202111272983.0
申请日:2021-10-29
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F16/9535 , G06F16/9538 , G06K9/62 , G06N20/00
Abstract: 本公开关于一种内容搜索方法、装置、电子设备及存储介质,涉及数据处理技术领域。该方法包括:获取搜索词,并确定搜索词对应的多个搜索结果;读取预先存储的搜索词与至少两种类型的搜索结果之间的对应关系;对应关系是根据搜索词对应的用户满意值和被展示次数分别满足预设条件的历史搜索结果确定的;根据对应关系,从多个搜索结果中获取至少两种类型的目标搜索结果;显示目标搜索结果。
-
公开(公告)号:CN113901324A
公开(公告)日:2022-01-07
申请号:CN202111247968.0
申请日:2021-10-26
Applicant: 北京达佳互联信息技术有限公司
Inventor: 张志伟
IPC: G06F16/9535 , G06F16/9538 , G06N20/00 , G06N3/08
Abstract: 本公开关于一种搜索对象排序方法、装置、设备及存储介质,该方法包括:获取待排序的多个搜索对象,所述多个搜索对象是基于同一目标搜索词搜索得到的;确定所述多个搜索对象中各搜索对象的对象特征;确定所述目标搜索词对应的目标用户账户的用户特征;所述用户特征表征所述目标用户账户的唯一性;基于所述各搜索对象的对象特征和所述用户特征,确定所述各搜索对象的预估点击率;根据所述各搜索对象的预估点击率,对所述各搜索对象进行排序。其中,用户特征可以用于指导个性化排序,且整体方案复杂度低、时效性好,本公开实施例提供的搜索对象排序方法可以同时满足实时性和个性化的需求。
-
公开(公告)号:CN110135505B
公开(公告)日:2021-09-17
申请号:CN201910418617.8
申请日:2019-05-20
Applicant: 北京达佳互联信息技术有限公司
IPC: G06K9/62
Abstract: 本公开关于一种图像分类方法、装置、计算机设备及计算机可读存储介质。通过将待分类图像属于各个类别的概率值与概率阈值进行比较,当该概率值小于概率阈值时,将待分类图像的图像特征与多个类别特征进行匹配,确定与该图像特征匹配成功的类别特征,由于类别特征可以用于表示一个类别的图像应具有的特征,因此,可以将所确定的类别特征对应的类别作为该图像所属的类别,在保证分类结果准确率的同时,提高了图像分类任务中的召回率,使得图像分类任务中被正确分类的图像数量大幅增多。
-
公开(公告)号:CN113254734A
公开(公告)日:2021-08-13
申请号:CN202110559194.9
申请日:2021-05-21
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F16/9035 , G06F16/9038
Abstract: 本公开关于一种点击模型确定方法、搜索方法、装置、服务器及计算机可读存储介质。点击模型确定方法,包括:通过历史点击模型确定样本搜索词的第一搜索结果,以及通过新增点击模型确定样本搜索词的第二搜索结果;确定第一搜索结果对应的第一评价信息,以及确定第二搜索结果对应的第二评价信息;根据第一评价信息和所述第二评价信息,确定样本搜索词的有效点击模型。本公开实现了针对不同搜索词可以采用不同的点击模型进行搜索,从而可以提高搜索结果的搜索质量。
-
公开(公告)号:CN112650952A
公开(公告)日:2021-04-13
申请号:CN202011558715.0
申请日:2020-12-25
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F16/9538 , G06F16/9535 , G06F16/2458 , G06F16/18
Abstract: 本申请涉及计算机技术领域,公开了一种搜索排序方法及装置,用以解决了新上传的多媒体内容因交互数据少而出现的排序不准确的问题。该方法包括:搜索得到与输入的查询信息相匹配的第一多媒体内容集合,若任意一个第一多媒体内容X的已上传时间低于设定时间阈值,则基于第二多媒体内容集合的日志数据确定操作行为特征,其中,第二多媒体内容集合是第一多媒体内容X的上传对象上传的;基于操作行为特征对第一多媒体内容集合进行排序。同一个上传对象上传的多媒体内容存在偏好相似的情况,因此,可以根据第二多媒体内容集合的日志数据,推算出其他使用对象操作第一多媒体内容的数据,解决新上传的多媒体内容因交互数据少,出现的排序不准确的问题。
-
公开(公告)号:CN112000822A
公开(公告)日:2020-11-27
申请号:CN202010850843.6
申请日:2020-08-21
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F16/435 , G06F16/438 , G06F40/289 , G06K9/62
Abstract: 本公开关于一种多媒体资源排序方法、装置、电子设备及存储介质,通过根据多媒体资源的多媒体特征对搜索词对应的文本特征进行加权处理,得到包含有注意力分布信息的加权文本特征;并将搜索词的加权文本特征与多媒体资源的多媒体特征进行融合,得到特征表达能力提升的融合特征;将融合特征输入至点击概率预估模型,输出多媒体资源的点击概率估计值。由于融合特征不仅包含有多媒体资源的注意力分布信息,还增大了文本特征与多媒体特征之间的紧密联系,从而通过点击概率预估模型对融合特征进行预测时,可以对用户的点击行为进行准确预估,进而根据点击概率预估模型输出的点击概率估计值进行多媒体资源的排序,提升搜索多媒体资源的准确性。
-
公开(公告)号:CN111881349A
公开(公告)日:2020-11-03
申请号:CN202010699772.4
申请日:2020-07-20
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F16/9535 , G06F16/9538 , G06N3/04 , G06N3/08
Abstract: 本申请涉及计算机技术领域,公开了一种内容搜索的方法及装置,用以提高搜索准确度。该方法包括:根据接收到的账号的搜索信息,获取账号对应的至少一组资源关联信息,每组资源关联信息包括分别利用搜索信息、账号的账号信息和账号对应的一个候选资源信息进行特征提取得到的资源关联信息;再对每组资源关联信息分别进行特征拼接,得到多个交叉特征信息,基于各个交叉特征信息,分别确定对应的第一关联度特征和第二关联度特征,并基于各个第一关联度特征和对应的第二关联度特征,确定账号与各个候选资源信息的预测相关度;基于各个预测相关度对各个候选资源信息进行排序。综合考虑搜索信息、账号信息与候选资源信息,有利于提高预测准确率。
-
-
-
-
-
-
-
-
-