-
公开(公告)号:CN104166706B
公开(公告)日:2017-11-03
申请号:CN201410389077.2
申请日:2014-08-08
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于代价敏感主动学习的多标签分类器构建方法,直接使用每个样本的特定标签的信息,在标记集上训练初始分类器,然后利用当前分类器在未标记集上进行学习,挑选出一定量误分类代价最大的未标注样本的样本‑标签对,标注所选的样本‑标签对的真实标签值,并将它们加入标记集中,更新训练样本集和分类器。本发明仅需要较少的迭代次数就能达到目标误分类代价,学习的效率大大提高;将采样粒度缩小到样本‑标签对,大大减小了标记样本的代价,尤其在标签数目很大的多标签分类中效果更明显。
-
公开(公告)号:CN106951963A
公开(公告)日:2017-07-14
申请号:CN201710197975.1
申请日:2017-03-29
Applicant: 苏州大学
IPC: G06N5/02
Abstract: 本发明公开了一种知识精炼的方法以及装置,通过获取自动抽取的知识库内的候选知识子集;根据众包任务选择算法,从候选知识子集中选取出第一预设数量的最优知识子集,其中,众包任务选择算法为以语义约束规则为基础的算法,第一预设数量小于或等于预设众包任务数量;基于最优知识子集,发布众包任务,得到任务反馈结果;根据任务反馈结果,对知识库进行去噪操作。即基于众包平台,对自动抽取的知识库内的知识进行精炼,也即利用人工标注去除自动抽取的知识库的噪声,使得知识库内的知识质量较高。且选取出预设数量的候选知识子集实施众包任务,使得在有限的资源下最大化知识质量的提升。可见,本申请有利于提高自动抽取的知识库内的知识质量。
-
公开(公告)号:CN103699678B
公开(公告)日:2016-09-28
申请号:CN201310752850.2
申请日:2013-12-31
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本发明公开一种基于多阶段分层采样的层次聚类方法和系统,该方法包括:将随机采样得到的初始样本集作为种子构建分层查询策略,并基于分层的估计方差被最小化原则,为每层查询策略分配相应的样本个数;利用分层查询策略对数据源进行分层采样,得到样本代表性较高的代表性样本集;对代表性样本集中的样本进行聚类,基于聚类所得簇的边界点对数据源进行二次采样,得到样本不确定性较高不确定性样本集;基于由初始样本集、代表性样本集及不确定性样本集构成的合集进行聚类,以估计数据源的聚类中心。可见,本发明通过多阶段分层采样保证了样本具有较高的代表性、不确定性,规避了随机采样样本代表性较差的问题,进而提高了数据源聚类的准确度。
-
公开(公告)号:CN103246687B
公开(公告)日:2016-08-17
申请号:CN201210193883.3
申请日:2012-06-13
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本发明在于公开了一种基于特征信息的Blog自动摘要方法,其步骤包括:基于特征信息的语句得分;基于潜在语义的评论关注得分;摘要复选与合并;经过如上处理后,即为本发明最终所得到的摘要句集合;该方法在充分利用Blog特征信息的基础上,基于潜在语义相关性来融合评论中的关注点,生成对读者更为友好的摘要,同时通过摘要复选的方法平衡了主题覆盖与信息冗余;本发明利用潜在语义相关性解决了评论和正文间的同义噪音问题;本方法生成的摘要对读者更为友好,准确性更高。
-
公开(公告)号:CN104462614A
公开(公告)日:2015-03-25
申请号:CN201510018109.2
申请日:2015-01-14
Applicant: 苏州大学
IPC: G06F17/30
CPC classification number: G06F17/30705
Abstract: 本发明提供了一种基于网络数据的主动学习方法及装置,本发明利用未标注样本构建样本关系矩阵,样本关系矩阵中不仅包含每个样本的自身信息含量,还包括各个未标注样本之间的关系信息含量,所以样本关系矩阵考虑了样本的非独立分布的特性,即各个样本之间的关系特性;在样本关系矩阵的基础上构建目标函数,目标函数值越大代表所挑选的样本的信息含量越大,求解目标函数得到使目标函数值最大的多个未标注样本,多个未标注样本组成最优样本子集。本申请能够在大量未标注的网络数据中选择最优样本子集,以便对选择的样本子集进行人工标注后,重新构建分类器模型,从而提高分类器模型对网络数据的分类性能。
-
公开(公告)号:CN102855638B
公开(公告)日:2015-02-11
申请号:CN201210286326.6
申请日:2012-08-13
Applicant: 苏州大学
Abstract: 本发明公开了一种基于谱聚类的车辆异常行为检测方法,通过视频跟踪获取运动目标的时空轨迹,经过去异和预处理得到正常的轨迹,对轨迹进行构图,得到轨迹序列对应的无向图;然后计算轨迹间的相似性,从而得到相似性矩阵;对相似性矩阵进行拉普拉斯变换得到拉普拉斯矩阵,然后对其前k个最大特征值的特征向量矩阵进行聚类;对运动轨迹进行模式学习后,获得目标在正常状态下的运动模式,如果一条新的轨迹符合其中的一条常态运动模式,则说明该交通没有发生异常,否则说明车辆在进行非常态运动,即出现交通异常。本发明通过对车辆轨迹的聚类学习,实现了对车辆异常行为的监测,可以发现车辆的非正常变道,为交通管理自动化提供依据。
-
公开(公告)号:CN104166706A
公开(公告)日:2014-11-26
申请号:CN201410389077.2
申请日:2014-08-08
Applicant: 苏州大学
IPC: G06F17/30
CPC classification number: G06K9/6268
Abstract: 本发明公开了一种基于代价敏感主动学习的多标签分类器构建方法,直接使用每个样本的特定标签的信息,在标记集上训练初始分类器,然后利用当前分类器在未标记集上进行学习,挑选出一定量误分类代价最大的未标注样本的样本-标签对,标注所选的样本-标签对的真实标签值,并将它们加入标记集中,更新训练样本集和分类器。本发明仅需要较少的迭代次数就能达到目标误分类代价,学习的效率大大提高;将采样粒度缩小到样本-标签对,大大减小了标记样本的代价,尤其在标签数目很大的多标签分类中效果更明显。
-
公开(公告)号:CN103500228A
公开(公告)日:2014-01-08
申请号:CN201310505323.1
申请日:2013-10-23
Applicant: 苏州大学
IPC: G06F17/30
CPC classification number: G06F17/30867
Abstract: 一种协同过滤推荐算法中改进的相似性度量方法,包括以下步骤。S1、创建用户集合U={U1,U2,…,Un}中n个用户对项目集合I={I1,I2,…,Im}中m个项目的评分矩阵R(n×m),以Ra,i表示用户Ua对项目Ii的评分,其中Ua∈U,Ii∈I。S2、分别计算用户Ua和Ub之间的相似度sim(Ua,Ub),项目Ii和Ij之间的相似度sim(Ii,Ij),定义相似度影响因子ε,使sim'(Ua,Ub)=ε×sim(Ua,Ub),sim'(Ii,Ij)=ε×sim(Ii,Ij)。S3、在[0,1]区间取参数λ,根据所述λ、ε、用户对项目的评分均值、用户之间的相似度及项目之间的相似度,预测用户对项目的评分。
-
公开(公告)号:CN103257983A
公开(公告)日:2013-08-21
申请号:CN201210330860.2
申请日:2012-09-10
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本发明在于公开了一种基于唯一性约束的Deep Web实体识别方法,方法包括两个主要步骤:首先从硬性约束角度出发,将问题归结为一个k部图聚类问题,提出了聚类算法;然后将其扩展到软性约束条件下,将实体识别问题归结为优化问题,并提出了匹配算法。本发明将记录连接和数据融合集成起来并以一种全局的方式应用它们,提出了在硬性约束下的k部图聚类问题,并将它扩展到软性约束的情况中;同时基于属性值的相似性和同一记录里属性之间的关联性做出全局性的决策,能够识别不正确的值并且将它们从一开始就和正确的值区分开来,从而获得更好的识别效果;且本发明方法对属性值进行聚类从而表现出更加细粒度的聚类效果。
-
公开(公告)号:CN103246687A
公开(公告)日:2013-08-14
申请号:CN201210193883.3
申请日:2012-06-13
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本发明在于公开了一种基于特征信息的Blog自动摘要方法,其步骤包括:基于特征信息的语句得分;基于潜在语义的评论关注得分;摘要复选与合并;经过如上处理后,即为本发明最终所得到的摘要句集合;该方法在充分利用Blog特征信息的基础上,基于潜在语义相关性来融合评论中的关注点,生成对读者更为友好的摘要,同时通过摘要复选的方法平衡了主题覆盖与信息冗余;本发明利用潜在语义相关性解决了评论和正文间的同义噪音问题;本方法生成的摘要对读者更为友好,准确性更高。
-
-
-
-
-
-
-
-
-