一种语种训练数据获得方法及装置

    公开(公告)号:CN109741731A

    公开(公告)日:2019-05-10

    申请号:CN201910015434.1

    申请日:2019-01-08

    Abstract: 本发明提供一种语种训练数据获得方法及装置,用以解决相关技术中语种训练数据质量较低的问题。该方法包括:训练用于识别各种语种的语种识别模型;使用各语种识别模型识别数据集中的第二音频数据,获得与各语种识别模型对应的得分;确定第二音频数据对应的识别语种;计算数据集中各条第二音频数据的得分信息熵;将所述数据集中,得分信息熵满足第一预设条件且实际语种与识别语种一致的第二音频数据的集合作为训练数据集,训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。本发明提高了语种训练数据的质量。

    一种语种训练数据获得方法及装置

    公开(公告)号:CN109741731B

    公开(公告)日:2020-12-29

    申请号:CN201910015434.1

    申请日:2019-01-08

    Abstract: 本发明提供一种语种训练数据获得方法及装置,用以解决相关技术中语种训练数据质量较低的问题。该方法包括:训练用于识别各种语种的语种识别模型;使用各语种识别模型识别数据集中的第二音频数据,获得与各语种识别模型对应的得分;确定第二音频数据对应的识别语种;计算数据集中各条第二音频数据的得分信息熵;将所述数据集中,得分信息熵满足第一预设条件且实际语种与识别语种一致的第二音频数据的集合作为训练数据集,训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。本发明提高了语种训练数据的质量。

    基于kubernetes的hdfs-hbase部署方法及装置

    公开(公告)号:CN109885316B

    公开(公告)日:2023-05-09

    申请号:CN201910119277.9

    申请日:2019-02-18

    Abstract: 本发明公开了一种基于kubernetes的hdfs‑HBase部署方法,所述方法包括:计算层通过kubernetes模块获取服务器信息,打包基础镜像,并在所述镜像仓库中保存Hbase基础配置;在用户创建Hbase应用时,计算层通过管理页面获取用户输入的需求信息,修改Hbase基础配置,遴选服务器并打标签,并根据本次Hbase部署的需求信息,生成yaml文件,并调用所述kubernetes模块;所述kubernetes模块按照所述yaml文件要求部署并启动Hbase集群,并将所述Hbase集群添加到巡检队列中;所述巡检系统对所述巡检队列进行轮询。

    支持HIVE自动分区的加载系统及其实现方法

    公开(公告)号:CN109902126B

    公开(公告)日:2021-12-07

    申请号:CN201910119268.X

    申请日:2019-02-18

    Abstract: 本发明公开了一种支持HIVE自动分区的加载系统及其实现方法,所述方法包括:数据源模块,用于接收数据,对数据进行预备分类,按照数据的来源和数据头上所携带的配置信息进行预处理,得到数据所需要写入的对应的HIVE表,将映射关系放入到数据头中,并将数据放入到数据通道;数据通道,用于作为所述数据源模块和所述输出接口模块之间的数据通道;输出接口模块,用于从数据通道中获取数据,对数据反序列化,进行进一步的校验,依据加载系统在HIVE中所获取的分区设置计算出分区,将与数据所对应的数据库名和表名一起作为数据写入hdfs中的key值,依据该key值,从文件写入管理模块中获取对应的文件句柄,将数据写入至hdfs或者其他存储介质中。

    互联网基础资源及其关系模型、及模型的构建、应用方法

    公开(公告)号:CN113079034A

    公开(公告)日:2021-07-06

    申请号:CN202110261760.8

    申请日:2021-03-10

    Abstract: 本发明公开了一种互联网基础资源及其关系模型、及模型的构建、应用方法。互联网基础资源及其关系模型构建方法,包括:将相同类型的互联网基础资源以集合的形式表示,以获得多个集合;获取每个互联网基础资源的属性以及各个互联网基础资源之间的关系;基于多个集合、每个互联网基础资源的属性以及各个互联网基础资源之间的关系,构建互联网基础资源及其关系模型。本发明为互联网基础资源提供一种描述方法,包括资源、资源之间的关系以及资源属性的定义,并在此基础上提供多个互联网资源之间的操作,用以支持对互联网上常用行为进行研究的支撑。

    基于SparkSQL的透明分区方法及装置

    公开(公告)号:CN109902101A

    公开(公告)日:2019-06-18

    申请号:CN201910122512.8

    申请日:2019-02-18

    Abstract: 本发明公开了一种基于SparkSQL的透明分区方法及装置,所述方法包括:在建表语句提交后,获取用户在创建分区表时指定分区字段和采用的分区策略,通过SQL解析器确定透明分区并将透明分区信息进行保存;当用户通过SQL查询数据时,通过SQL解析生成逻辑执行计划;根据逻辑执行计划中的查询条件,并结合保存的透明分区信息计算出本次查询的数据分区,然后通过改写逻辑执行计划并生成优化后的物理执行计划;根据生成的物理执行计划的执行步骤划分出具体的任务,通过所述任务从所述数据分区中读取数据。

Patent Agency Ranking