一种基因变异数据分布式存储方法及架构

    公开(公告)号:CN108563923A

    公开(公告)日:2018-09-21

    申请号:CN201711267170.6

    申请日:2017-12-05

    Abstract: 本发明公开了一种基因变异数据分布式存储方法及架构,该方法包括分布式数据存储过程、分布式位图索引创建过程和分布式查询检索过程;该架构包括分布式列式存储模块、分布式位图索引模块和查询检索模块。本发明通过采用新的列式存储引擎kudu进行数据分布式存储,并针对各样本列建立分布式局部位图索引,有效解决现有的HDFS方案随机数据访问性能低的问题;解决HBase方案批量分析性能不佳的问题;简化存储架构模型;解决基因型查询工具对多个工具依赖的限制问题;同时本发明通过分布式的局部位图索引方案,实现了高并发,并提高了可拓展性。

    一种手机游戏分类算法
    142.
    发明公开

    公开(公告)号:CN108228845A

    公开(公告)日:2018-06-29

    申请号:CN201810018771.1

    申请日:2018-01-09

    Abstract: 本发明公开了一种手机游戏分类算法,通过计算不同平台下的游戏的名称、图标和描述简介的相似度,找出同款游戏,统一互联网上16个游戏提供平台的分类体系,按照统一的标准,通过计算游戏的描述简介文本的句子向量相似度和主题分布向量,以分词统计后的游戏标题、原有平台名称和原有平台的分类标签作为输入,训练GBDT模型,然后进行特征融合,在采用特定的分类算法进行分类,准确地将不同平台下的各种游戏进行分类。本发明具有极高的准确率,效果好,能有效地提高不同数据源游戏分类的精确率。

    一种桥梁监测系统中超重车动态识别方法

    公开(公告)号:CN107766877A

    公开(公告)日:2018-03-06

    申请号:CN201710887400.2

    申请日:2017-09-27

    Abstract: 本发明公开了一种桥梁监测系统中超重车动态识别方法,包括步骤:1)保证应变响应时间序列为平稳序列,若不是,将时间序列数据经过步差分和阶差分后变为平稳时间序列;2)使用SARIMA模型对时间序列数据建模,将模型的AR系数作为识别异常的关键特征,然后将同一截面不同传感器的系数串联得到特征向量;3)将AR系数特征向量输入降噪自动编码器进行训练,训练完成后,自动编码器网络结构中的中间层维度即为所需的关键特征,将此中间层维度作为最终的训练特征;4)将训练特征输入带有核函数的一类支持向量机进行无监督训练,训练结果为高维空间中的超球体,然后以此超球面判别测试数据是否为超重异常数据。本发明识别原理简单高效,具有较强的鲁棒性。

    一种基因序列比对的云计算加速方法

    公开(公告)号:CN107704728A

    公开(公告)日:2018-02-16

    申请号:CN201710880756.3

    申请日:2017-09-26

    CPC classification number: G16B50/00 G16B30/00

    Abstract: 本发明公开了一种基因序列比对的云计算加速方法,包括步骤:1)对基因测序仪的下机数据文件Fastq进行预处理,以保证数据分发时数据的完整性;2)通过Spark对修改后的基因测序数据完成多节点分发;3)对每个节点所获得的修改后的基因数据,恢复其原有Fastq文件格式;4)每个节点通过Spark中的pipe算子执行基因序列比对程序脚本,运行结果存储在Spark的弹性分布式数据集RDD中;5)运行结果保存在诸如HDFS、Amazon、S3等分布式文件系统。本发明采用一种更简单的方式将比对工具运行在Spark框架上,不仅可以很好的利用Spark的机制进行多机计算的调度、数据的分发、监控和容错,而且相较于JNI的实现方式,开发门槛低,代码维护简单,性能更好,扩展性可接近线性。

    一种基于超图排序的新闻推荐方法

    公开(公告)号:CN104090936B

    公开(公告)日:2017-02-22

    申请号:CN201410299211.X

    申请日:2014-06-27

    Abstract: 本发明公开了一种基于超图排序的新闻推荐方法,包括以下步骤:1)预处理,2)超图构建,3)矩阵构建,4)排序,5)获得排序结果,6)获得推荐结果。本发明主要通过使用超图模型挖掘用户和新闻内容的内在关系和排序关系,从而将新闻推荐比较繁杂的处理体系简化为一个明晰简洁的关联架构。本发明的特色在于简化了新闻推荐的预处理步骤,而且直接给出了推荐列表。使用本发明可以较好地保证推荐结果与用户偏好的准确性,同时对推荐结果无需做额外二次挑选的前提下又可以保证推荐结果的多样性。

    面向移动广告用户的手机游戏推荐方法

    公开(公告)号:CN106055566A

    公开(公告)日:2016-10-26

    申请号:CN201610333697.3

    申请日:2016-05-19

    CPC classification number: G06F16/9535 G06Q30/0271

    Abstract: 本发明公开了一种面向移动广告用户的手机游戏推荐方法,手机用户在使用手机应用的时候,经常会点击一些手机应用推送的广告。手机用户的广告点击行为从某种程度上反映了手机用户的兴趣偏好。通过对广告介绍文档进行实体提取,根据手机用户的广告点击记录,构造出手机用户偏爱的广告实体集合。针对移动广告用户中具有游戏记录的用户,进一步提取用户偏爱的游戏实体集合、游戏集合,和广告实体集合共同刻画用户的兴趣偏好。针对具有游戏记录的移动广告用户,通过对用户模型进行余弦相似度计算,构建近邻用户集合,进行个性化推荐;针对没有游戏记录的移动广告用户,计算这些用户与具有游戏记录的广告用户的余弦相似度,构建近邻用户集合,从而进行个性化推荐。

    基于社区评论情感倾向性分析的手游排行榜构建方法

    公开(公告)号:CN106022878A

    公开(公告)日:2016-10-12

    申请号:CN201610333699.2

    申请日:2016-05-19

    CPC classification number: G06Q30/0631 G06K9/6256

    Abstract: 本发明公开了一种基于社区评论情感倾向性分析的手游排行榜构建方法,包括步骤:1)对用户输入的评价文本进行预处理;2)对预处理后的手游评论进行分词和词性标注;3)选取高频的情感词作为情感特征,生成机器学习所需的全部特征向量;4)将特征向量和评价极性标签输入到SVM分类器中进行模型训练;5)用户任意输入一段评价文本,通过分词、词性标注和特征化操作之后,SVM分类器的训练模型能够自动对该评价文本进行评价极性预估;6)生成每款手游对应的评价情况,并根据好评和差评的数量,构建对应的手游好评排行榜。通过情感倾向性分析研究评论极性的方法可以延伸到各领域,具有广泛的应用前景。

    一种基于聚类的垃圾邮件过滤系统及方法

    公开(公告)号:CN103559175B

    公开(公告)日:2016-08-10

    申请号:CN201310476384.X

    申请日:2013-10-12

    Abstract: 本发明公开了一种基于聚类的垃圾邮件过滤系统及方法,系统包括聚类模块、邮件训练模块、特征库存储模块、邮件过滤模块;方法包括:S1.1、从邮件备份系统获取训练邮件及未标记邮件;S1.2、聚类预处理模块对邮件进行预处理;S1.3、聚类分析模块对预处理后的邮件划分成不同的类簇;S1.4、类簇中心计算模块计算各类簇的向量表达;S1.5、训练模块对各类簇中的已标记邮件进行学习,更新对应类簇的特征库;S2.1、从邮件系统获取需要过滤的邮件;S2.2、邮件类属性判别模块计算出与该邮件内容最接近的类簇;S2.3、邮件特征提取模块对待判别邮件进行特征提取;S2.4、邮件判别模块依据邮件特征及对应的特征库给出判别结果。本发明具有提取速度快、准确度高、效果好的优点。

    基于日志的生物基因测序的任务模型构建方法

    公开(公告)号:CN103559333B

    公开(公告)日:2016-06-22

    申请号:CN201310477025.6

    申请日:2013-10-12

    Abstract: 本发明公开了一种基于日志的生物基因测序的任务模型构建方法,首先分析并提取生物基因测序日志中任务在提交时间上具有的工作日周期性和节假日周期特性;任务并行度在分布上具有的重尾分布特征,任务并行度同任务运行时间之间的重尾分布特征;任务队列的队列使用率存在指数分布,正态分布,伽马分布,二项分布特征,同时队列使用率同队列的日任务到达数的期望值之间存在非线性关系的特征。本发明模拟了任务提交时间上的工作日周期性以及节假日周期性;然后生成了任务的并行度和任务的运行时间;最后到达数的期望之间存在的关系生成了任务的队列号。最终构建的任务模型可以用于更好地分析生物基因测序技术的优缺点,优化高性能环境的资源利用率。

    一种移动广告作弊识别方法

    公开(公告)号:CN105046529A

    公开(公告)日:2015-11-11

    申请号:CN201510464406.X

    申请日:2015-07-30

    Abstract: 本发明公开了一种移动广告作弊识别方法,包括以下步骤:步骤1、获取所述移动终端的相应移动应用程序产生的首次广告活动信息,并且获取移动终端的一移动应用程序的下载信息;步骤2、根据所述首次广告活动信息和所述下载信息,识别所述移动应用程序是否存在广告作弊行为。具有能够准确地识别移动应用广告浏览和点击的异常,能够精确的检测移动互联网的移动应用广告作弊行为,有效的保障了广告主的资金投入能起到相应的广告效果等优点。

Patent Agency Ranking