-
公开(公告)号:CN112130812A
公开(公告)日:2020-12-25
申请号:CN202010772705.0
申请日:2020-08-04
Applicant: 中科天玑数据科技股份有限公司
IPC: G06F8/20
Abstract: 本发明提供了一种基于数据流混合编排的分析模型构建方法,所述基于数据流混合编排的分析模型构建方法包括以下步骤:拆分处理子任务,接收分析任务的数据流转,并将分析任务按照分析流程拆分为处理子任务;修饰处理子任务,为处理子任务定义:数据输入、数据输出及处理逻辑;封装分析任务,将分析任务封装为编码结构的数据流图;转换语言格式,将数据流图转换为标记语言格式的任务流图;调度执行,将任务流图解析,并进行分发调度执行;生成分析结果,返回调度执行的执行结果,得到分析结果。本发明还提供了一种基于数据流混合编排的分析模型构建系统。本发明能够解决了数据分析建模过程中建模方式单一、建模流程复杂、缺少混合运算支持的问题。
-
公开(公告)号:CN111382181A
公开(公告)日:2020-07-07
申请号:CN202010183474.X
申请日:2020-03-16
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F16/2455 , G06Q40/06 , G06Q40/04 , G06Q10/06
Abstract: 本发明涉及数据处理的技术领域,具体涉及一种基于股权穿透的指定企业派系归属分析方法及系统,包括对每个待分析企业信息数据进行采集存储,得到原始信息数据,信息数据包括股东信息数据;根据原始信息数据对每个待分析企业向上发散计算股权链路占比,并确定所述每个待分析企业的全部股东,所述全部股东包括最终股东;通过检索出与所述最终股东相关的关联待分析企业,生成与最终股东相关的第一派系信息数据;对第一派系信息数据进行合并,生成最终派系信息数据;通过对股东信息进行采集存储以及分析,从而计算出每个待分析企业的向上发散计算股权链路占比。对待分析企业进行了基于最终股东的集合划分,为企业关联分析提供支撑。
-
公开(公告)号:CN110837608A
公开(公告)日:2020-02-25
申请号:CN201911080716.6
申请日:2019-11-07
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F16/9538 , G06F16/951
Abstract: 本发明提供了一种基于多源数据的舆情话题传播路径分析系统,包括:多源数据采集模块,用于对舆情话题进行多源数据采集,获取至少一项来源信息;传播路径分析模块,用于根据来源信息的类型采用不同的单源传播路径建立方案,得到单源传播路径,多个单源传播路径相互关联,得到交叉传播路径;传播主路径分析模块,用于分析各个节点的转发关系和转发量,得到舆情话题的关键传播节点,保留根节点与关键传播节点、关键传播节点之间的传播路径,删掉无关路径,得到传播主路径;路径显示模块,用于显示路径信息。本发明还提供了一种基于多源数据的舆情话题传播路径分析方法,帮助用户更加直观的了解舆情话题的传播情况。
-
公开(公告)号:CN111401448B
公开(公告)日:2024-05-24
申请号:CN202010183470.1
申请日:2020-03-16
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F40/284
Abstract: 本发明提供了一种交易平台分类方法和装置,包括步骤:数据采集,接收第一数据,根据第一数据获取第二数据,所述第二数据包括自然语言,对所述第二数据进行第一预处理,生成第三数据;数据处理,对所述第三数据进行分析,根据数据相关度,判定所述第三数据为第一类数据或第二类数据;分类模型建立,将所述第一类数据和第二类数据根据样本数和学习率建立分类模型;平台分类,接收平台数据和所述第三数据,将所述第三数据输入所述分类模型,判定所述第三数据为第一类数据或第二类数据;分析平台数据,判定与所述平台数据相关的第三数据。通过数据采集,数据处理,分类模型建立,平台分类,判断平台为场内或场外平台。
-
公开(公告)号:CN113761911A
公开(公告)日:2021-12-07
申请号:CN202110283769.9
申请日:2021-03-17
Applicant: 中科天玑数据科技股份有限公司
IPC: G06F40/289 , G06F40/284 , G06F40/117 , G06K9/62
Abstract: 本发明公开了一种基于弱监督的领域文本标注方法,包括以下步骤:S1产品语料预处理过程;S2WCE‑S‑LDA模型训练;S3标注数据。有益效果:本技术提出了字词联合向量改进seeded‑lda方法实现对语料的自动标注。本发明公布了一种针对中文评论文本自动标注框架。设计一种自适应的考虑文本向量改进seeded‑lda模型的文本自动标注方法。通过本方法可以提高文本训练语料的标注速度以及规模。进而为训练模型提供更多的训练资源。本发明的目的在于提供一种面向规模语料评论的自动标注方法与框架,快速生成分类训练样本,降低人工参与,提高工作效率。同时保证一定的标注准确率,为快速分析大规模语料提供有力帮助。
-
公开(公告)号:CN113761481A
公开(公告)日:2021-12-07
申请号:CN202110481566.0
申请日:2021-04-30
Applicant: 中科天玑数据科技股份有限公司
Abstract: 本发明公开了一种基于容器云的软件授权认证方法,包括以下步骤:S1、将软件的授权规则信息保存在一个结构体中,将其序列化为一个二进制文件;S2、使用密钥将步骤S1中生成的二进制文件加密为license文件;S3、将license文件以配置映射的方式加载到容器云平台S4、将license证书文件与相关的网卡mac地址进行匹配。有益效果:在容器云集群环境,通过configmap加载license,通过operator收集服务器信息、分发license,减少逐台获取物理服务器mac地址、分发license的操作,从而提高效率。
-
公开(公告)号:CN113761358A
公开(公告)日:2021-12-07
申请号:CN202110509465.X
申请日:2021-05-11
Applicant: 中科天玑数据科技股份有限公司
IPC: G06F16/9535 , G06F16/33 , G06F16/35 , G06F40/216 , G06F40/289 , G06F40/30 , G06K9/62
Abstract: 本发明公开了一种多通道热点发现的方法及多通道热点发现系统,包括以下步骤:S1、筛选阶段,通过一个平台拉取数据流,对其进行过滤,筛选出热点,并且将热点聚合到搜索引擎上,如果没有热点,则进入到汇集阶段;S2、汇集阶段,对不同平台数据流进行处理,得到热点半成品结果集,再存入远程字典里面;S3、融入阶段,根据平台以往的历史去寻找热点;S4、对上述热点数据进行处理,并且做出相似度计算;S5、若是同一个实体则归为同一实体名称,如果不是,则将新的实体名称加进远程字典里面并将结果聚合到搜索引擎中;S6、聚类结束,等待下一个热点索引。提高了信息采集效率和检索性能。使其在海量数据中能够快速的获取热点信息。
-
公开(公告)号:CN113761215A
公开(公告)日:2021-12-07
申请号:CN202110321491.X
申请日:2021-03-25
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
Inventor: 赵忠华 , 李建广 , 余智华 , 王禄恒 , 陈欣洁 , 赵志云 , 冯凯 , 葛自发 , 杜漫 , 孙小宁 , 穆庆伟 , 万欣欣 , 申双成 , 李欣 , 孙立远 , 付培国 , 王晴 , 杜宛真
IPC: G06F16/36 , G06F16/35 , G06F40/242 , G06F40/295
Abstract: 本发明公开了一种基于反馈自学习的动态字典库生成方法,包括以下步骤:S1、字典库定义;S2、基于字典库分类体系;S4、基于语料库导出的标注数据,配合模型参数调整,逐步迭代优化模型;S5、将S4步生成的预测数据回填到字典库。有益效果:该方法通过概念模式定义、自然语言处理技术、全流程调度机制,实现从原始语料概念模式定义生成基础字典库,在基础字典库基础上进行标注模型的自动构建、迭代训练及修正,最后再利用标注模型来进行新的语料数据标注,反馈更新字典库,实现从标注训练到反馈自学习的闭环流程,达到模型自动逐步优化能力。最终实现字典库的自动完善,标注模型逐步优化的全自动循环过程。
-
公开(公告)号:CN113761121A
公开(公告)日:2021-12-07
申请号:CN202110484431.X
申请日:2021-04-30
Applicant: 中科天玑数据科技股份有限公司
IPC: G06F16/33 , G06F16/36 , G06F40/237
Abstract: 本发明公开了一种结构化数据的知识抽取方法,包括下列步骤:S1、构件抽取组件;S2、按照每条抽取规则指定的表格,构造一种字典数据结构,其中键为表格ID,值为对应表格的一组抽取组件;S3、遍历步骤S2中构造的字典,对于每个键值对,基于键构造数据库连接,获取表格数据,然后将这些数据逐条发送给当前键对应的抽取组件;S4、抽取组件对接收的数据进行处理,依次进行全局唯一ID、业务标识ID、类型、属性信息抽取;S5、对于节点抽取组件和关系抽取组件进行进一步抽取。有益效果:可用于构建知识图谱,有良好的扩展性和自适应能力,能够满足多源异构数据的知识抽取需要。
-
公开(公告)号:CN113760681A
公开(公告)日:2021-12-07
申请号:CN202110260430.7
申请日:2021-03-10
Applicant: 中科天玑数据科技股份有限公司
IPC: G06F11/34 , G06F16/22 , G06F16/242 , G06F16/248
Abstract: 本发明公开了一种基于统一SQL的多源异构数据质量校验方法和系统,根据本发明的一个方面包括以下步骤:S1、创建质量校验规则;S2、创建质量校验任务;S3、创建质量检验作业;S4、创建质量校验调度计划;S5、提交调度计划执行校验逻辑;S6、质量报告生成;根据本发明的另一个方面包括任务作业配置模块、作业调度模块、校验执行模块、数据质量报告生成与数据质量分析模块。本发明的有益效果为:可以对不同存储形式的数据进行直观、灵活、统一的质量管理,同时也能满足复杂的业务需求。
-
-
-
-
-
-
-
-
-