一种基于最大最小距离和K-means的自适应聚类方法

    公开(公告)号:CN104376057A

    公开(公告)日:2015-02-25

    申请号:CN201410621601.4

    申请日:2014-11-06

    CPC classification number: G06F17/30598 G06K9/6222

    Abstract: 本发明公开了一种基于最大最小距离和K-means的自适应聚类方法,该方法解决了传统K-means聚类算法存在的对初始中心敏感,以及簇个数需事先确定的问题。本发明是一种策略性方法。本发明对初始中心以及新增簇的初始中心的选择都不是随机的,而是经过计算得到的,以数据(子)集中分别与相距最大的两个点相距最小的两个点作为初始中心,能够有效地避免选取到孤立点作为初始中心,同时能有效地减少聚类过程的迭代次数,并得到较好的聚类结果;本发明针对各簇SSE(误差平方和)情况和总的SSE变化趋势决定是否增加簇以及是否结束聚类,从而能自适应确定簇数,特别适合那些簇数难以确定的应用场景。

    一种基于标准标签和项目评分的推荐方法

    公开(公告)号:CN103678431A

    公开(公告)日:2014-03-26

    申请号:CN201310101242.5

    申请日:2013-03-26

    CPC classification number: G06F16/9562

    Abstract: 基于标准标签和项目评分的推荐方法具有如下特征:本发明将标签标准化,即将用户的自定义标签映射到语义较明确的标准标签上,再利用标准标签建立用户兴趣模型,然后根据用户的兴趣模型计算用户之间的相似度,建立近邻用户群,再基于目标用户及其近邻用户的项目评分和改进的Slope one算法预测用户对未评项目的评分,进而实现个性化推荐,可显著提高Web2.0互联网上广泛使用的可进行自由定义的标签的可用性,利用基于标准标签的用户兴趣模型计算用户之间的相似度,并为目标用户建立相似用户群,能够缩小目标用户的相关项目评分搜索范围,减少算法的计算量,改进了Slope one算法的项目评分预测,提高了兴趣爱好相近的用户对预测评分的贡献,从而提高互联网个性化推荐质量。

    一种基于主客观语义的双层次文本相似度计算方法

    公开(公告)号:CN103678275A

    公开(公告)日:2014-03-26

    申请号:CN201310129124.5

    申请日:2013-04-15

    Abstract: 基于主客观语义的双层次文本相似度计算方法具有如下特征:本发明将文本分为题目和正文两个层次,通过过滤构建题目-词语向量,通过提取关键词构建较低维度的正文-词语向量,并将主客观结合的词语语义相似度计算方法用于词语向量相似度的计算,分别得到题目和正文的相似度,进而得到文本相似度;基于《知网》和语料库的词语-文本索引计算词语语义相似度,使词语表达简洁,计算结果能既符合主观概念又符合客观语义环境;文本相似度计算中,题目和正文并重,且将主客观结合的词语语义相似度计算方法运用其中,避免了高维度的文本-词语向量,充分提取了文本信息,提高了文本相似度结果的准确度,且适用于各种情况下文本的相似性分析。

    一种基于潜在扩散模型的文本生成视频方法及系统

    公开(公告)号:CN117729370A

    公开(公告)日:2024-03-19

    申请号:CN202311695832.5

    申请日:2023-12-12

    Inventor: 成卫青 王鹏博

    Abstract: 本发明公开了一种基于潜在扩散模型的文本生成视频方法及系统,包括:通过膨胀潜在扩散模型网络将2D的文生图模型拓展到时空域,并针对源视频进行逐帧分解得到视频帧序列;利用预处理器对视频帧序列进行特征提取得到条件帧序列,引入多帧渲染机制作用在每一个当前生成帧的扩散过程;选择特定时间步长对当前生成帧序列施加平滑优化操作,并经过连续时间步长完成对所有视频帧的处理;根据结果输出生成视频帧序列,合成生成视频;本发明采用微调方法通过网络膨胀将模型拓展到空间域来实现视频生成任务,成本低,易实现;且为了减少生成视频整体结构的闪烁,本发明利用视频插帧技术对生成帧序列进行了过滤平滑,以提高相邻帧细节上的一致性。

    一种融入标签语义的文本分类改进方法

    公开(公告)号:CN115982369A

    公开(公告)日:2023-04-18

    申请号:CN202310245899.2

    申请日:2023-03-15

    Inventor: 成卫青 韩博

    Abstract: 本发明公开了一种融入标签语义的文本分类改进方法包括,对数据集中的文本和标签分别进行向量编码;处理文本编码向量得到预测标签分布和损失;处理标签编码向量得到标签向量表征和损失;采用LCM,将文本向量表征和标签向量表征作相似度分析;将得到的损失使用KLDivLoss损失函数衡量差异。本发明是基于标签混淆学习(LCM)提高文本分类任务的准确率,LCM使得标签分布变成软标签分布,对one‑hot这种暴力标签的一种优化,让相近的标签距离更加相近,不相关的标签距离更加变远。

    一种基于消费数据和同态加密算法的消费人群分类方法

    公开(公告)号:CN113313160A

    公开(公告)日:2021-08-27

    申请号:CN202110564959.8

    申请日:2021-05-24

    Inventor: 成卫青 刘婷婷

    Abstract: 本发明公开了一种基于消费数据和同态加密算法的消费人群分类方法,包括,通过数据所有者采集任意时间段的用户消费数据,基于VHE的整数向量同态加密策略将用户消费数据转换成向量矩阵进行加密,而后将加密完成获得的密文上传至数据库;广告运营商根据需求设置所需的用户分类个数k,并将用户分类个数k发送给第三方计算中心;通过第三方计算中心读取密文,并根据用户分类个数k密文进行聚类,完成消费人群的分类;本发明基于价值矩阵对k‑means聚类算法进行优化改进,提升聚类效果,对庞大而多维的消费人群进行更精确的细分;同时解决了往常同态加密下小数位的数据精度缺失的缺点,极大地降低了用户消费数据信息泄漏的风险。

    一种基于chrome插件的危险网页识别方法

    公开(公告)号:CN110427579B

    公开(公告)日:2020-12-01

    申请号:CN201910720615.4

    申请日:2019-08-06

    Abstract: 本发明公开了一种基于chrome插件的危险网页识别方法,包括根据网页中所有外部链接的URL提取支持向量机第一维度数据,根据页面html代码中所有 标签内嵌或引用的JavaScript代码提取支持向量机第二维度数据,根据提取到的支持向量机第一维度数据和第二维度数据求解支持向量机,输出是分离超平面的参数w*和b*以及分类决策函数,本发明通过比对域名与知名网页域名的相似程度,以及对网页内嵌或引用JavaScript代码进行分析来判别网页是否为危险网页,有效解决了已有网页安全性识别方法存在的准确率不够高和通用性不够强的问题。

    基于转发关系的微博聚类方法

    公开(公告)号:CN105159905B

    公开(公告)日:2019-08-30

    申请号:CN201510325890.8

    申请日:2015-06-12

    Abstract: 本发明公开了基于转发关系的微博聚类方法,该方法针对微博文本特征稀疏造成的微博文本聚类效果不佳的问题,提出一种基于微博转发关系的微博文本聚类方法。该方法根据微博之间存在的转发关系以及转发文本之间的主题相似性,构建了微博转发关系有向图。该图将转发关系作为单向边,使用微博作为节点构成图,将相互连通的部分视作一个小簇,称之为转发关系簇,在这个小簇中所有微博有同一个最初的转发源。本发明方法将转发关系簇作为聚类的初始对象,采用基于最大最小距离和SSE的自适应聚类算法进行微博文本聚类,提高了文本特征稀疏的微博文本的聚类准确率。

    一种基于HTTP请求Host信息的可疑网页识别方法

    公开(公告)号:CN108337259A

    公开(公告)日:2018-07-27

    申请号:CN201810100102.9

    申请日:2018-02-01

    Inventor: 成卫青 黄俊

    Abstract: 本发明公开了一种基于HTTP请求Host信息的可疑网页识别方法,包括如下步骤:步骤1)收集所有HTTP请求的Host信息;步骤2)将所有的HTTP请求依据其Host信息中的(二级域名.顶级域名)进行分组,统计各组的HTTP请求数;步骤3)遍历所有的组,看是否存在某组里仅有一个HTTP请求,若不存在,则访问的网页是不可疑的;步骤4)判断组键值(二级域名.顶级域名)是不是著名的,如果是非著名的,访问的网页是可疑的,否则访问的网页是不可疑的。本发明所达到的有益效果:仅通过分析网页访问过程中HTTP请求的Host信息,就可以快速有效识别可疑网页的方法,解决用户在访问网页时关心的网页安全性问题。

    一种基于标准标签和项目评分的推荐方法

    公开(公告)号:CN103678431B

    公开(公告)日:2018-01-02

    申请号:CN201310101242.5

    申请日:2013-03-26

    Abstract: 基于标准标签和项目评分的推荐方法具有如下特征:本发明将标签标准化,即将用户的自定义标签映射到语义较明确的标准标签上,再利用标准标签建立用户兴趣模型,然后根据用户的兴趣模型计算用户之间的相似度,建立近邻用户群,再基于目标用户及其近邻用户的项目评分和改进的Slope one算法预测用户对未评项目的评分,进而实现个性化推荐,可显著提高Web2.0互联网上广泛使用的可进行自由定义的标签的可用性,利用基于标准标签的用户兴趣模型计算用户之间的相似度,并为目标用户建立相似用户群,能够缩小目标用户的相关项目评分搜索范围,减少算法的计算量,改进了Slope one算法的项目评分预测,提高了兴趣爱好相近的用户对预测评分的贡献,从而提高互联网个性化推荐质量。

Patent Agency Ranking