支持多版本Hive表分区的数据加载、查询方法及电子装置

    公开(公告)号:CN112347097B

    公开(公告)日:2022-07-29

    申请号:CN202011011197.0

    申请日:2020-09-23

    Abstract: 本发明提供的支持多版本Hive表分区的数据加载、查询方法及电子装置,包括获取每条数据的分区字段;根据分区字段与各分区字段值列表的匹配关系,将每条数据写入相应的Hive表分区内;若存入哈希分区或自动间隔分区时,分区字段不能与现有的值列表匹配,创建新的哈希分区或自动间隔分区并生成新版本;若数据存入列表分区或区间分区时,列表分区规则或区间分区规则发生改动并生成相应新版本时,写入相应的列表分区或区间分区。本发明能够面对海量数据的存储和查询提供更加高效的复杂分区机制,在保持历史数据分区规则不变的同时,以多版本技术支持对增量数据分区规则在线调整,避免无意义扫描和计算,节省大量时间,极大提高系统的可维护性和查询效率。

    基于伪增益类别再平衡的半监督目标检测方法及平台

    公开(公告)号:CN114842277B

    公开(公告)日:2024-12-17

    申请号:CN202210398479.3

    申请日:2022-04-15

    Abstract: 本发明公开了一种基于伪增益类别再平衡的半监督目标检测方法及平台,所述方法包括:建立训练数据集S0,所述训练数据集S0包括:标注样本和若干未标注样本;基于所述标注样本进行监督学习,得到目标检测器M0;根据目标检测器Mi对训练数据集Si中未标注样本的推理结果,计算训练数据集Si中各未标注样本的伪增益分数,以在训练数据集Si中选取K个未标注样本进行人工标注,得到训练数据集Si+1;直至标注完所有未标注样本后,获取目标检测器M;基于所述目标检测器M对待检测图片进行目标检测。本发明基于伪增益的样本挖掘策略获得分布均衡且信息含量丰富的数据集,使得未标注数据中的信息利用程度最大化。

    基于对比学习特征增强的场景文字检测方法及装置

    公开(公告)号:CN117523571A

    公开(公告)日:2024-02-06

    申请号:CN202311298617.1

    申请日:2023-10-09

    Abstract: 本发明公开了一种基于对比学习特征增强的场景文字检测方法及装置,该方法包括:构建训练图片集和场景文字检测模型;基于场景文字检测模型对训练图片进行文字检测,并结合标签图,获得文字检测损失;抽取特征融合模块输出的视觉特征图,并基于文字特性进行微调后,结合标签图实施文字特征、背景特征和文本邻接区域特征的抽取和聚合,且对聚合特征进行对比学习的拉近和推远,以得到对比学习损失;根据文字检测损失和对比学习损失进行反向传播,得到训练后的场景文字检测模型;基于训练后的场景文字检测模型获取待检测图片的预测概率图后进行后处理,得到待检测图片中的文字位置。本发明可以在保证推理速度的同时提升检测效果,提高检测精度。

    基于BERT无监督文本分类的舆情分析方法和系统

    公开(公告)号:CN115329069A

    公开(公告)日:2022-11-11

    申请号:CN202210657446.6

    申请日:2022-06-10

    Abstract: 本发明涉及一种基于BERT无监督文本分类的舆情分析方法和系统。该方法的步骤包括:定义类目关键词列表;利用BERT模型和无标注语料扩展类目关键词列表,根据扩展的类目关键词列表构建类目指示词表;通过类目指示词表和无标注语料训练BERT模型,用于预测类目指示词所属的类目;利用训练所得的BERT模型预测舆情文本所属的类目;根据BERT模型的预测结果进行舆情分析。本发明通过BERT语言模型和大规模无标注语料,能够得到效果较好的文本分类模型并实现舆情分析,可以用于热点话题发现、有害信息检测、自动生成舆情信息分类训练集等应用场景。

    一种基于微服务智能信息处理方法及框架系统

    公开(公告)号:CN112199075B

    公开(公告)日:2021-09-21

    申请号:CN202011061990.1

    申请日:2020-09-30

    Abstract: 本发明公开了一种基于微服务智能信息处理方法及框架。本方法步骤包括:1)在微服务智能信息处理框架内设置一统一接入服务单元;对于待接入微服务智能信息处理框架的每一外部数据源,所述统一接入服务单元将该外部数据源转换为框架内的设定数据格式;2)针对每一设定微服务,查询微服务智能信息处理框架的算子服务列表,选取该设定微服务所需算子并进入算子编辑界面,建立该设定微服务的信息处理流;3)当微服务智能信息处理框架收到一条微服务请求时,解析该微服务请求中的元信息,确定处理该微服务请求中消息体的信息处理流,生成最终数据集;4)微服务智能信息处理框架将该最终数据集返回给该微服务请求发送方,完成该微服务请求。

    支持多版本Hive表分区的数据加载、查询方法及电子装置

    公开(公告)号:CN112347097A

    公开(公告)日:2021-02-09

    申请号:CN202011011197.0

    申请日:2020-09-23

    Abstract: 本发明提供的支持多版本Hive表分区的数据加载、查询方法及电子装置,包括获取每条数据的分区字段;根据分区字段与各分区字段值列表的匹配关系,将每条数据写入相应的Hive表分区内;若存入哈希分区或自动间隔分区时,分区字段不能与现有的值列表匹配,创建新的哈希分区或自动间隔分区并生成新版本;若数据存入列表分区或区间分区时,列表分区规则或区间分区规则发生改动并生成相应新版本时,写入相应的列表分区或区间分区。本发明能够面对海量数据的存储和查询提供更加高效的复杂分区机制,在保持历史数据分区规则不变的同时,以多版本技术支持对增量数据分区规则在线调整,避免无意义扫描和计算,节省大量时间,极大提高系统的可维护性和查询效率。

    一种基于微服务智能信息处理方法及框架

    公开(公告)号:CN112199075A

    公开(公告)日:2021-01-08

    申请号:CN202011061990.1

    申请日:2020-09-30

    Abstract: 本发明公开了一种基于微服务智能信息处理方法及框架。本方法步骤包括:1)在微服务智能信息处理框架内设置一统一接入服务单元;对于待接入微服务智能信息处理框架的每一外部数据源,所述统一接入服务单元将该外部数据源转换为框架内的设定数据格式;2)针对每一设定微服务,查询微服务智能信息处理框架的算子服务列表,选取该设定微服务所需算子并进入算子编辑界面,建立该设定微服务的信息处理流;3)当微服务智能信息处理框架收到一条微服务请求时,解析该微服务请求中的元信息,确定处理该微服务请求中消息体的信息处理流,生成最终数据集;4)微服务智能信息处理框架将该最终数据集返回给该微服务请求发送方,完成该微服务请求。

Patent Agency Ranking