-
公开(公告)号:CN105550369B
公开(公告)日:2019-06-07
申请号:CN201610052793.0
申请日:2016-01-26
申请人: 上海晶赞科技发展有限公司
IPC分类号: G06F16/953 , G06Q30/06
摘要: 一种搜索目标商品集的方法及装置,所述方法包括:根据已知的多个词典库对待搜索商品信息进行分词,得到多个目标关键词,其中,每一词典库存储单个类别的关键词,并与一个词典类别对应,当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库,将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词,从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,其中,所述商品库中的每个商品的商品信息均已被分词并得到对应的多个关键词。上述的方案可以提高定位目标商品的准确性。
-
公开(公告)号:CN105306230B
公开(公告)日:2018-09-11
申请号:CN201510674236.8
申请日:2015-10-16
申请人: 上海晶赞科技发展有限公司
IPC分类号: H04L12/18
摘要: 一种信息发送控制方法及装置,所述方法包括:接收来自目标网络服务器的请求广播;存储所述请求广播至广播数据库;接收来自信息源服务器的信息源消息;存储所述信息源消息至信息源数据库;将所述信息源数据库中的展示需求信息与所述广播数据库中的请求广播进行对照,确定与每条所述信息源消息相匹配的所述请求广播;基于所述展示参数和所述广播数据库,利用线性规划法计算每条所述信息源消息的发送控制参数;存储所述发送控制参数至发送信息源数据库;参照所述发送控制参数进行排序,选取目标展示信息,向所述目标网页发送包含所述目标展示信息和对应的展示参数的消息。所述方法及装置可以提升发送效率。
-
公开(公告)号:CN105117436B
公开(公告)日:2018-03-30
申请号:CN201510485686.2
申请日:2015-08-10
申请人: 上海晶赞科技发展有限公司
IPC分类号: G06F17/30
摘要: 本发明属于网站频道挖掘技术领域,提供了网站频道自动挖掘方法,包括:步骤从互联网数据中抓取各个网站的URL数据;对URL数据进行分解,分解成多种URL模式;对分解获得的多种URL模式进行过滤,去除重复包含的URL模式,得到候选URL模式;对过滤后的候选URL模式中所包含的URL数据进行抽样处理;对抽样留下的URL数据进行抓取网页内容,并对网页进行分类;统计各个URL模式中所包含的URL数据,设置分类相同的比例阈值,留下包含的URL数据分类超过比例阈值的模式;合并URL模式中存在包含关系的模式,得到频道列表。本发明能够自动发现各个网站的频道以及对频道进行分类,提高了URL数据的抓取和分类效率,占用磁盘空间小,省时省力,分类更加准确。
-
公开(公告)号:CN106227724A
公开(公告)日:2016-12-14
申请号:CN201610130665.3
申请日:2016-03-08
申请人: 上海晶赞科技发展有限公司
CPC分类号: G06F16/904 , G06N20/00 , G06Q30/0242
摘要: 一种同构数据集特征质量可视化方法,通过对同构的数据集特征及标签的样本分布进行统计,对特征集合内的任意特征,计算该特征的每个类别值其正样本发生率、规范化发生率、漂移度、综合发生率,最后以漂移度为半径、综合发生率为偏角,将该特征的类别值集合映射称极坐标系中的点集,进而特征质量图。这种特征质量可视化方法能有效应用于有监督学习中典型的四个特征工程问题:特征评估、特征归因、特征选择和特征改进。本发明使得有监督机器学习模型面对同构数据集但数据分布有趋势性漂移时,能够克服训练集和测试集分布差异问题,进而可以进行有效的特征评估、特征归因和特征选择,甚至通过改善特征以提升模型效果。
-
公开(公告)号:CN105740404A
公开(公告)日:2016-07-06
申请号:CN201610060688.1
申请日:2016-01-28
申请人: 上海晶赞科技发展有限公司
IPC分类号: G06F17/30
CPC分类号: G06F16/951 , G06F16/36
摘要: 一种标签关联方法及装置,所述方法包括:对待进行标签关联的目标数据进行匹配处理,以得到目标关键词,所述匹配处理参照关键词词典进行,所述关键词词典中包含映射至一个或多个标签的关键词;计算候选标签的权重,所述候选标签是在所述关键词词典中与所述目标关键词存在映射关系的标签;基于所述候选标签的权重选取目标标签,建立所述目标标签与所述目标数据之间的关联关系。所述方法及装置可以提高标签关联方法的效率。
-
公开(公告)号:CN105740389A
公开(公告)日:2016-07-06
申请号:CN201610056878.6
申请日:2016-01-27
申请人: 上海晶赞科技发展有限公司
CPC分类号: G06F16/35 , G06F16/951 , G06F17/2775 , G06F17/2785
摘要: 一种分类方法及装置,所述分类方法包括:确定层级分类库,所述层级分类库包含多个不同的支线,每一支线包含一个或多个不同层级的类目;从目标网站获取所述支线的最下层级类目包含的对象信息;根据所述对象信息和所述对象信息所属的支线训练分类模型。所述分类方法及装置的分类准确性更高。
-
公开(公告)号:CN105740363A
公开(公告)日:2016-07-06
申请号:CN201610052790.7
申请日:2016-01-26
申请人: 上海晶赞科技发展有限公司
IPC分类号: G06F17/30
CPC分类号: G06F16/9566 , G06F16/951
摘要: 一种网站目标页的发现方法及装置,所述方法包括:从URL队列中提取具有步骤标识的URL地址;判断提取出的当前URL地址的步骤标识是否为预设的最终步骤标识;当所述当前URL地址的步骤标识并非所述最终步骤标识时,根据所述步骤标识对所述当前URL地址指向的页面执行抓取操作,以得到下一级URL地址;为所述下一级URL地址确定步骤标识,所述下一级URL地址的步骤标识不同于所述当前URL地址的步骤标识;将所述下一级URL地址加入所述URL队列。上述的方案可以通过一套通用的爬虫系统来发现不同网站的目标页,节省了为发现不同网站目标页所耗费的资源。
-
公开(公告)号:CN105719126A
公开(公告)日:2016-06-29
申请号:CN201610043825.0
申请日:2016-01-22
申请人: 上海晶赞科技发展有限公司
IPC分类号: G06Q10/10
摘要: 一种基于生命周期模型的互联网大数据任务调度的系统及方法,调度系统的构建过程包括:通过建立数据任务生命周期模型、设计基于数据任务生命周期模型的任务表达方法、构建任务调度系统,任务调度系统,包括:界面层、存储层、元数据层和执行层。元数据层将任务实例以及任务实例之间的依赖关系抽象成一张属性图,属性图中的节点表示任务实例,节点属性包括任务实例的参数;属性图中的边表示任务实例之间的依赖关系;通过属性图来调度任务实例。本发明可自动推导任务依赖关系,自动化程度更高、可靠性更好。数据任务开发完成后,只需要提交不同的实例化参数,即可控制任务执行,效率更高、更智能化。
-
公开(公告)号:CN105306230A
公开(公告)日:2016-02-03
申请号:CN201510674236.8
申请日:2015-10-16
申请人: 上海晶赞科技发展有限公司
IPC分类号: H04L12/18
CPC分类号: H04L12/1859
摘要: 一种信息发送控制方法及装置,所述方法包括:接收来自目标网络服务器的请求广播;存储所述请求广播至广播数据库;接收来自信息源服务器的信息源消息;存储所述信息源消息至信息源数据库;将所述信息源数据库中的展示需求信息与所述广播数据库中的请求广播进行对照,确定与每条所述信息源消息相匹配的所述请求广播;基于所述展示参数和所述广播数据库,利用线性规划法计算每条所述信息源消息的发送控制参数;存储所述发送控制参数至发送信息源数据库;参照所述发送控制参数进行排序,选取目标展示信息,向所述目标网页发送包含所述目标展示信息和对应的展示参数的消息。所述方法及装置可以提升发送效率。
-
公开(公告)号:CN105681089B
公开(公告)日:2019-10-18
申请号:CN201610052562.X
申请日:2016-01-26
申请人: 上海晶赞科技发展有限公司
IPC分类号: H04L12/24
摘要: 一种网络用户行为聚类方法、装置及终端,网络用户行为聚类方法包括:根据预设的集合数目进行集合中心点的初始化;对所有用户进行采样以得到采样用户,根据所述采样用户与各个集合中心点的距离,将所述采样用户分配到所述集合中心点对应的集合,并根据分配的结果更新所述集合中心点;迭代所述采样、分配和更新所述集合中心点的过程,直至进入收敛状态;在迭代进入收敛状态后,根据所有用户与各个集合中心点的距离,进行所述所有用户的分配。本发明技术方案提高了用户网络用户行为聚类结果的精准性。
-
-
-
-
-
-
-
-
-