基于随机森林的图文数据融合情感分类方法和装置

    公开(公告)号:CN109934260A

    公开(公告)日:2019-06-25

    申请号:CN201910098349.6

    申请日:2019-01-31

    Abstract: 本发明涉及一种基于随机森林的图文数据融合情感分类方法和装置。该方法的步骤包括:1)提取多模态数据中图片的特征和文本的特征;2)将提取的图片的特征与文本的特征进行合并,得到图文整体特征;3)通过Corruption机制对图文整体特征进行特征选择;4)通过随机森林分类器对进行特征选择后的图文整体特征进行分类,得到情感分类结果。优选地,通过VGG-ISC网络提取多模态数据中图片的特征,通过CNN-TSC网络提取多模态数据中文本的特征。本发明可以有效的获取到单个模态上的特征,并且可以将二者的特征向量合并起来,作为一个整体的特征放入随机森林进行分类学习并进行情感分类。

    一种基于流量控制的树状存储结构写放大优化方法

    公开(公告)号:CN105302487B

    公开(公告)日:2018-05-22

    申请号:CN201510684785.3

    申请日:2015-10-20

    Abstract: 本发明公开了一种基于流量控制的树状存储结构写放大优化方法。本方法:1)在存储系统中设置一流量监听器;其中,该存储系统的磁盘空间和内存空间采用树状存储结构进行数据存储;2)该流量监听器根据磁盘空间的每一待监控组件的当前数据量,判断所述磁盘空间是否需要进行流量控制;如果需要控制,则选取若干待监控组件的当前数据量计算一流量控制力度;3)该流量监听器根据该流量监控力度计算一延长时间,然后根据该延长时间延长写请求的到达时间间隔。本发明能够有效降低写放大,提升LSM‑Tree的整体性能;使用本发明提供的方式优化LSM‑Tree,可以将LSM‑Tree的整体写吞吐量提升30%以上。

    一种基于Spark的数据处理方法及系统

    公开(公告)号:CN107463595A

    公开(公告)日:2017-12-12

    申请号:CN201710335307.0

    申请日:2017-05-12

    CPC classification number: G06F16/27 G06F16/21 G06F16/25

    Abstract: 本发明公开了一种基于Spark的数据处理方法及系统。本方法为:1)用户根据待处理文档的需求选取算子并配置所选取的算子参数,然后建立所选算子的连接关系,生成场景的XML文件;该场景的XML文件中包括每一所选算子的XML内容以及各算子的连接关系;2)根据场景的XML文件生成相应的有向无环图DAG;3)将该有向无环图DAG切分成若干能够在分布式计算环境下执行的子任务subJob,在Spark计算框架下执行切分后得到的子任务subJob,实现对该待处理文档的处理。本发明能够实现对接各种异构数据,提高了数据处理灵活性。

    一种海量数据实时排序优化方法

    公开(公告)号:CN106909624A

    公开(公告)日:2017-06-30

    申请号:CN201710043943.6

    申请日:2017-01-19

    Abstract: 本发明公开了一种海量数据实时排序优化方法。本方法为:1)设置一集群级节点、若干节点级节点和若干文件级节点;2)集群级节点将收到的检索排序请求发送给各节点级节点,各节点级节点将该检索排序请求发送给本节点的文件级节点;3)各文件级节点根据该检索排序请求,将与本节点相关的日志文件排序后输出有序数据给节点级节点;4)各节点级节点根据该检索排序请求将本节点上符合时间范围和分区条件的日志数据排序后输出给该集群级节点;5)该集群级节点将各节点级节点发送过来的有序数据流进行排序汇总。在任意的排序场景中,本方法都能有效降低内存使用量。

    一种基于循环位图模型的辅助索引方法及装置

    公开(公告)号:CN104182522B

    公开(公告)日:2017-04-19

    申请号:CN201410425094.7

    申请日:2014-08-26

    Abstract: 本发明涉及一种基于循环位图模型的辅助索引方法及装置,包括以下步骤:从日志文件生产队列里获取当前的日志文件及其文件编号,为该日志文件中的所有关键字分别建立循环位图;判断文件编号是否在索引范围起始位与索引范围结束位之间;检查文件编号是否在索引范围起始位与有效索引范围终点之间;在日志文件的文件编号处执行置位操作;对有效索引范围终点与索引范围结束位之间做复位操作,在待置位的文件编号处执行置位操作,并将有效索引范围终点赋值为索引范围结束位;等待直到文件生产队列中生成新的日志文件,执行步骤1。本发明不随日志编号增加而扩展内存使用空间,能够在客户端和服务器实现,并针对客户端提出基于流水线的提速模型。

    一种基于时间片轮转机制的树状存储结构写放大优化方法

    公开(公告)号:CN105487820A

    公开(公告)日:2016-04-13

    申请号:CN201510859463.8

    申请日:2015-11-30

    CPC classification number: G06F3/0634 G06F3/0608 G06F3/0613

    Abstract: 本发明公开了一种基于时间片轮转机制的树状存储结构写放大优化方法。本方法为:1)选取磁盘空间中一待合并的组件,赋予其占用时间片的权限;其中,磁盘空间为多组件的树状存储结构;2)根据所选组件当前数据量的大小,动态调整时间片的阈值大小;3)所选组件在占用时间片的过程中连续进行若干次合并操作。本发明对拥有时间片的组件具有最高的合并选择优先级,不能进行合并操作的组件将自动放弃时间片,避免不必要的长期占用,导致系统资源空闲,可以将LSM-Tree的整体写吞吐量提升40%以上。

    一种基于用户行为分析的Hadoop集群作业调度方法及装置

    公开(公告)号:CN104156505A

    公开(公告)日:2014-11-19

    申请号:CN201410350690.3

    申请日:2014-07-22

    Abstract: 本发明涉及一种基于用户行为分析的Hadoop集群作业调度方法及装置,包括以下步骤:收集Hadoop集群产生的日志文件,根据日志文件创建日志数据表,将日志数据表存储于数据库中,并定时将存储于数据库中的日志数据表转存到Hive集群中;根据存储于Hive集群中的日志数据表,得到每个资源组在任一时间区间内提交作业的作业数量及各资源组提交作业的作业类型;根据每个资源组提交作业的作业类型和作业数量,确定各资源组的最小资源占用限额;在资源组提交作业后,根据该资源组对应的最小资源占用限额调度大于等于最小资源占用限额的资源进行处理提交的作业。本发明能够为作业级的调度提供准确和真实的依据。

    数据查询方法及装置
    78.
    发明公开

    公开(公告)号:CN103218423A

    公开(公告)日:2013-07-24

    申请号:CN201310113295.9

    申请日:2013-04-02

    Abstract: 本发明涉及一种数据查询方法及装置。其中,数据查询方法包括:接收用户提供的查询条件,所述查询条件包括查询关键字、编辑距离阈值以及滑动窗口宽度;提取所述查询关键字的特征值,组成关键字特征索引;提取当前滑动窗口中基本窗口的特征值,组成滑动窗口的特征索引,所述滑动窗口包含设定数目的基本窗口,所述滑动窗口的特征索引为该滑动窗口中所有基本窗口的特征索引组成的队列;在达到预设的查询触发条件时,触发对当前滑动窗口的查询;根据所述关键字特征索引和编辑距离阈值,对当前滑动窗口的特征索引进行过滤,得到满足过滤下限的候选字符串集。本发明的数据查询方法及装置能有效弥补在数据流场景下进行关键字精确查询的不足,具备较好的查询容错能力。

    一种定制化人物视频生成方法和装置

    公开(公告)号:CN119963674A

    公开(公告)日:2025-05-09

    申请号:CN202411955084.4

    申请日:2024-12-27

    Abstract: 本发明提供一种定制化人物视频生成方法和装置,该方法包括:步骤1,基于具有先验知识的文本生成图像模型,结合以人物为中心的图像和视频数据,构建基础的姿态可控的人物视频生成模型;步骤2,通过参考视频中的姿态信息和文本描述构建训练数据集,微调所述人物视频生成模型的图像生成部分,学习参考人物的外观特征;步骤3,在已微调的所述人物视频生成模型基础上集成时序层,利用视频数据进行微调,增强所述人物视频生成模型对时间序列信息的建模能力,保持所述人物视频生成模型的先验知识;步骤4,输入自定义文本以及姿势图序列,利用微调后的所述人物视频生成模型,生成具有自定义场景和姿态的个性化视频。该方法克服了现有技术局限,降低计算资源开销,不仅提升了生成视频的个性化程度,还增强了对复杂场景和多样化姿态的生成能力,显著扩展了模型的应用范围与灵活性。

Patent Agency Ranking