一种基于混合多项分布的文本分类算法

    公开(公告)号:CN108268469A

    公开(公告)日:2018-07-10

    申请号:CN201611254483.3

    申请日:2016-12-30

    Abstract: 本发明提供一种基于混合多项分布的文本分类算法,包括以下步骤:S1:输入训练集文本;S2:计算并保存所有文本类别C的概率分布;S3:初始化混合多项分布的参数值θ、πk以及分量个数K;S4:使用当前参数值θ、πk,计算完整数据的对数似然函数关于隐藏变量后验概率分布的期望;S5:用EM算法训练混合多项分布的参数值θ、πk;S6:对不同的所述分量个数K,分别画出模型对测试集和所述训练集的预测误差图线,选择预测误差最小的K值;S7:输出结果。本发明的有益效果在于,本发明将朴素贝叶斯算法结合混合多项分布,用EM算法对混合模型的参数进行估计,以提高模型的分类精度。

    社会行为数据模型的构建方法

    公开(公告)号:CN107194715A

    公开(公告)日:2017-09-22

    申请号:CN201710224931.3

    申请日:2017-04-07

    CPC classification number: G06Q30/0201 G06Q30/0202

    Abstract: 本发明公开了一种数据分析技术,具体是社会行为数据模型的构建方法,包括如下步骤:获取客户基本信息;获取不同方面的社会行为数据;对社会行为数据进行标准化处理;利用标准化后的数据建立社会行为数据模型;通过对此模型的分析,建立算法对客户下一阶段行为进行预测;获取客户后续阶段行为作为反馈来验证并修正所建立的数据模型、预测模型;所述修正是将客户后续阶段的行为数据作为验证数据,将后续阶段的数据与预测模型输出的预测结果相比较,形成正、反例;通过正例与反例更正数据模型与预测模型的权值。本发明社会行为数据模型能够准确预测客户的行为需求。

    一种基于自定义地图网格的海洋数据流通方法

    公开(公告)号:CN116823459A

    公开(公告)日:2023-09-29

    申请号:CN202310607331.0

    申请日:2023-05-25

    Inventor: 陈乐焱 胡晓

    Abstract: 本发明涉及一种基于自定义地图网格的海洋数据流通方法,包括:获取目标海洋数据;基于自定义参数将目标海洋数据进行网格划分,得到多份网格数据;对各网格数据进行定价,得到定价信息;基于定价信息,对目标海洋数据进行流通。上述基于自定义地图网格的海洋数据流通方法,可以基于自定义参数对目标海洋数据进行网格划分,并对划分得到的网格数据分别定价,从而使得不同数据使用不同规格的网格尺寸进行定价、同一份数据可以采用多套网格尺寸定价,最大限度促进数据流通。上述流通方法不仅可以适用于数据提供方,也适用于数据购买方,能够充分满足数据使用者的个性化需求,突破传统海洋数据交易模式,提供标准统一、灵活可变的多元化数据交易服务。

    一种基于混合多项分布的文本分类算法

    公开(公告)号:CN108268469B

    公开(公告)日:2021-05-14

    申请号:CN201611254483.3

    申请日:2016-12-30

    Abstract: 本发明提供一种基于混合多项分布的文本分类算法,包括以下步骤:S1:输入训练集文本;S2:计算并保存所有文本类别C的概率分布;S3:初始化混合多项分布的参数值θ、πk以及分量个数K;S4:使用当前参数值θ、πk,计算完整数据的对数似然函数关于隐藏变量后验概率分布的期望;S5:用EM算法训练混合多项分布的参数值θ、πk;S6:对不同的所述分量个数K,分别画出模型对测试集和所述训练集的预测误差图线,选择预测误差最小的K值;S7:输出结果。本发明的有益效果在于,本发明将朴素贝叶斯算法结合混合多项分布,用EM算法对混合模型的参数进行估计,以提高模型的分类精度。

    一种基于多种算法融合的缺失值插补方法

    公开(公告)号:CN108197080A

    公开(公告)日:2018-06-22

    申请号:CN201611123384.1

    申请日:2016-12-08

    Abstract: 本发明提供一种基于多种算法融合的缺失值插补方法,其包括:步骤S1:对所有数据进行层次聚类;步骤S2:针对含有缺失值的类,根据是否为有缺失值的记录,将记录分为缺失数据组和完全数据组;步骤S3:将完全数据组中的数据随机分成训练集和测试集,用n种现有的插补方法预测测试集,构建一定数量的样本集;步骤S4:运用得到的样本集训练神经网络得出神经网络模型;步骤S5:运用神经网络模型对含有缺失值的类进行插补,得出最后的插补值;步骤S6:判断是否存在还有缺失值的类,如果是,则执行步骤S2,如果否,则执行步骤S7;步骤S7:结束。本发明运用现有多种方法得出的缺失值,解决人为主观的选择缺失值插补方法的不足,比较客观有效地插补缺失值。

    对企业客户进行评价的方法及系统

    公开(公告)号:CN107122425A

    公开(公告)日:2017-09-01

    申请号:CN201710224932.8

    申请日:2017-04-07

    Abstract: 本发明公开了大数据处理技术,特别是对企业客户进行评价的方法及系统,其中方法包括如下步骤:获取客户的数据信息,该数据信息包含多个类目的数据对象;为每个需要进行聚类的类目的数据对象设定n类描述,并设定各类目的阈值λ;判断所获取的n类描述客户数据对象是否超出相应的阈值λ,若结果超出阈值,则提取客户数据信息中对应于所述类目的完整的信息数据,并为此信息数据设置n类评定等级规则,并根据各类描述的聚类分析结果对所有客户进行评价排名;若结果未超出阈值,则将其放入备用客户数据库中;对在各类描述的等级评定中等级均排名较前的客户进行数据提取,放入可用客户数据库中,本发明能够对客户进行高效、客观地分析评价。

    一种基于稀疏表示的图像检索方法和装置

    公开(公告)号:CN108182188A

    公开(公告)日:2018-06-19

    申请号:CN201611123413.4

    申请日:2016-12-08

    Abstract: 本发明提供了一种基于稀疏表示的图像检索方法和装置,该方法包括步骤S1,输入图像集,对图像集中的输入图像进行预处理;步骤S2,采用群稀疏特征选择策略,选择出输入图像和图像数据库的特征信息,构成图像特征库;步骤S3,根据输入图像的特征和图像数据库中的特征进行特定的度量比较,计算出相似度,得出初次匹配结果;步骤S4,根据相似度的大小输出与输入图像相似的图像。与现有技术比较本发明的有益效果在于:提取的特征采用了图像的颜色、纹理和方向特征,可以更加准确地表达图像的真实内容,改善图像检索的性能。采用群稀疏特征选择策略提出了一种特征选优的方法,可以自主选择最优特征进行特征匹配,提高了图像检索系统的精度。

    一种基于随机森林算法的网页排序方法

    公开(公告)号:CN108182186A

    公开(公告)日:2018-06-19

    申请号:CN201611122793.X

    申请日:2016-12-08

    Abstract: 本发明提供一种基于随机森林算法的网页排序方法,包括:获取搜索网页对应的关键词和关键备选词;计算所述搜索网页对应的关键词或者关键备选词词频和权重;计算搜索网页质量相关指标PR值;计算搜索网页的枢纽值和权威值;计算最近浏览网页与所述搜索网页的相关性与最近浏览网页的关键词以及关键备选词的TF-IDF值乘积;计算输出指标:规定访问时间以上的搜索网页用户网页浏览次数与满足条件的网页停留时间某一函数的乘积是否大于设定的阀值;建立随机森林模型并记录相应结果;计算最终的所述搜索网页得分并排序。与现有技术相比,本发明的利用随机森林的方法对传统的HITS算法进行一定程度上的改良,提升用户的搜索体验,使得信息来得更好更准。

    一种基于Adaboosting算法思想的图像去噪方法及装置

    公开(公告)号:CN108154480A

    公开(公告)日:2018-06-12

    申请号:CN201611103030.0

    申请日:2016-12-05

    Abstract: 本发明公开一种基于Adaboosting算法思想的图像去噪方法,其包括:步骤a,选定滤波器集合F以及参数范围;步骤b,初始化像素权重;步骤c,进入循环处理,计算每个循环对应的滤波器清晰度误差、对应的滤波器权重以及更新后各个像素的权重;步骤d,生成‘强去噪图像’;步骤e,改变滤波器类型。还公开了一种与基于Adaboosting算法思想的图像去噪方法相对应的装置。这样,采用Adaboost图像去噪法,考虑了各个‘弱滤波器’的效果,找到最优的滤波器组合,Adaboost图像去噪法有效解决单一滤波器不能解决的多噪声,未知噪声的图像问题,该方法为图像去噪乃至于图像处理其他方面提供了一个有效的解决方向。

    一种聚类分析方法及装置
    10.
    发明公开

    公开(公告)号:CN108154162A

    公开(公告)日:2018-06-12

    申请号:CN201611103950.2

    申请日:2016-12-05

    CPC classification number: G06K9/6223

    Abstract: 本发明提供一种聚类分析方法和装置,该聚类分析装置包括:数据获取模块、第一聚类模块、样本数据确定模块、筛选样本模块、计算模块和第二聚类模块。与现有技术相比,本发明提供的一种聚类分析方法和装置,计算两个类的类间距离时采用的是筛选出的两个类中的代表数据对象两两之间的距离,而不是两个类中所有的数据对象,从而节约了所耗费的时间和资源。对于类中代表数据的筛选是根据选择距离簇中心较近和最密集的数据对象为原则,可以提高取样估计的准确性,避免了簇边缘上容易出现误差的数据对象,从而减少了类中可能包含不属于该类的数据对象的概率,提高了聚类效果。

Patent Agency Ranking