-
公开(公告)号:CN113761121B
公开(公告)日:2023-05-09
申请号:CN202110484431.X
申请日:2021-04-30
Applicant: 中科天玑数据科技股份有限公司
IPC: G06F16/33 , G06F16/36 , G06F40/237
Abstract: 本发明公开了一种结构化数据的知识抽取方法,包括下列步骤:S1、构件抽取组件;S2、按照每条抽取规则指定的表格,构造一种字典数据结构,其中键为表格ID,值为对应表格的一组抽取组件;S3、遍历步骤S2中构造的字典,对于每个键值对,基于键构造数据库连接,获取表格数据,然后将这些数据逐条发送给当前键对应的抽取组件;S4、抽取组件对接收的数据进行处理,依次进行全局唯一ID、业务标识ID、类型、属性信息抽取;S5、对于节点抽取组件和关系抽取组件进行进一步抽取。有益效果:可用于构建知识图谱,有良好的扩展性和自适应能力,能够满足多源异构数据的知识抽取需要。
-
公开(公告)号:CN112130812B
公开(公告)日:2022-04-15
申请号:CN202010772705.0
申请日:2020-08-04
Applicant: 中科天玑数据科技股份有限公司
IPC: G06F8/20
Abstract: 本发明提供了一种基于数据流混合编排的分析模型构建方法,所述基于数据流混合编排的分析模型构建方法包括以下步骤:拆分处理子任务,接收分析任务的数据流转,并将分析任务按照分析流程拆分为处理子任务;修饰处理子任务,为处理子任务定义:数据输入、数据输出及处理逻辑;封装分析任务,将分析任务封装为编码结构的数据流图;转换语言格式,将数据流图转换为标记语言格式的任务流图;调度执行,将任务流图解析,并进行分发调度执行;生成分析结果,返回调度执行的执行结果,得到分析结果。本发明还提供了一种基于数据流混合编排的分析模型构建系统。本发明能够解决了数据分析建模过程中建模方式单一、建模流程复杂、缺少混合运算支持的问题。
-
公开(公告)号:CN113761386A
公开(公告)日:2021-12-07
申请号:CN202110481580.0
申请日:2021-04-30
Applicant: 中科天玑数据科技股份有限公司
IPC: G06F16/9536 , G06Q50/00
Abstract: 本发明公开了一种人物社交关系挖掘的方法,包括以下步骤:S1、抽取存储阶段,拉取采集数据流,抽取数据流中相关数据中的用户信息;S2、人物与账号关联计算阶段,通过比较获取最为相似的用户与该种子用户进行关联,构建形成人物数据;S3、人物社交关系计算阶段,设定置信度阈值,超过阈值的用户判断为发现的新用户,没有超过阈值的用户为其他用户,将计算结果及相关连的用户存储于图数据库;S4、展示修正阶段,将上述计算结果通过图谱形式进行展现,通过展现的结果进行相关的修正。有益效果:通过人物账号关联及账号社交关系挖掘得到较为精确的人物社交关系。
-
公开(公告)号:CN113761319A
公开(公告)日:2021-12-07
申请号:CN202110484453.6
申请日:2021-04-30
Applicant: 中科天玑数据科技股份有限公司
IPC: G06F16/953
Abstract: 本发明公开了一种度量文章传播影响力的方法,包括下列步骤:S1、数据采集:利用已有的数据采集技术,对影响力计算所需的各类数据进行次采集;S2、数据分析处理:对已采集的数据进行分析处理;S3、信源影响力计算:对信源的影响力进行综合计算,得出[0,100]整数区间内的影响力数值;S4、新闻稿件影响力计算:结合信源影响力,计算目标稿件的影响力,得出[0,100]整数区间内的影响力数值;S5、事件/任务影响力计算:对事件/任务聚合的新闻稿件影响力融合计算,得出事件/任务的的影响力数值。有益效果:通过算法对新闻信息的综合传播效果进行量化计算,用于新闻信息间的影响力对比分析。
-
公开(公告)号:CN112130933A
公开(公告)日:2020-12-25
申请号:CN202010773698.6
申请日:2020-08-04
Applicant: 中科天玑数据科技股份有限公司
Abstract: 本发明提供了一种算子集构建方法和装置,算子单元接收,所述算子单元为处理单元用于完成所对应的处理任务;算子接口参数获取,根据所述算子单元获取所述算子接口参数,所述算子接口参数包括开启参数和运行参数;算子模块构建,将获取了算子接口参数的算子单元构建为算子模块。所述算子单元的接口参数为统一的包括有开启参数和运行参数,统一所述算子接口参数的规格,降低开发人员多种语言和算法的衔接难度;对于业务人员,业务人员可以直接调用算子模块,降低工作难度。本发明还提供了一种算子集调用方法和装置,业务人员可以针对运行环境选择适用的算子模块,再将被选择的算子模块发送至运行节点运行,提高业务人员工作效率。
-
公开(公告)号:CN111353300A
公开(公告)日:2020-06-30
申请号:CN202010093817.3
申请日:2020-02-14
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F40/284 , G06F40/289 , G06K9/62
Abstract: 本发明提供了一种数据集构建方法及装置,包括步骤:数据采集,获取来自互联网数据源的第一数据,所述第一数据包括自然语言,所述第一数据经过预处理后,生成第二数据;数据特征分析,所述第二数据包括子数据,所述子数据包括第一特征数据,分析所述第一特征数据,得出所述第一特征数据的特征度;数据标签建立,根据所述第一特征数据的特征度确定所述子数据标签;数据分类存储,根据所述子数据标签将所述子数据分类保存,保存为数据集。实时采集互联网中的数据;根据特征数据和特征度提取对应的标签;通过所述子数据标签将所述子数据进行分类提高提取速度,提高工作效率。本发明提供了一种相关信息获取方法及装置,提高准确性,提高工作效率。
-
公开(公告)号:CN111382181B
公开(公告)日:2024-08-02
申请号:CN202010183474.X
申请日:2020-03-16
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F16/2455 , G06Q40/06 , G06Q40/04 , G06Q10/0635
Abstract: 本发明涉及数据处理的技术领域,具体涉及一种基于股权穿透的指定企业派系归属分析方法及系统,包括对每个待分析企业信息数据进行采集存储,得到原始信息数据,信息数据包括股东信息数据;根据原始信息数据对每个待分析企业向上发散计算股权链路占比,并确定所述每个待分析企业的全部股东,所述全部股东包括最终股东;通过检索出与所述最终股东相关的关联待分析企业,生成与最终股东相关的第一派系信息数据;对第一派系信息数据进行合并,生成最终派系信息数据;通过对股东信息进行采集存储以及分析,从而计算出每个待分析企业的向上发散计算股权链路占比。对待分析企业进行了基于最终股东的集合划分,为企业关联分析提供支撑。
-
公开(公告)号:CN110852090B
公开(公告)日:2024-03-19
申请号:CN201911080694.3
申请日:2019-11-07
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F40/284 , H04L41/147
Abstract: 本发明提供了一种用于舆情爬取的机构特征词汇扩展系统,包括:数据采集模块:用于采集数据;特征词清洗加工模块:用于对特征词进行初步筛选;特征词统计分析模块:用于通过相关度分析,进一步筛选特征词,最终生成拓展特征词。本发明另一方面提供了一种用于舆情爬取的机构特征词汇扩展方法,采用上述方案,筛选掉无用特征词并进行分析,生成拓展特征词,全面、快速采集相关舆情信息,一方面有效的避免了漏查情况的发生,另一方面也减少了无用特征词增加无用的数据,提高检索效率和质量,减少内存的占用。
-
公开(公告)号:CN115345401A
公开(公告)日:2022-11-15
申请号:CN202110527091.4
申请日:2021-05-14
Applicant: 中科天玑数据科技股份有限公司
IPC: G06Q10/06 , G06Q40/00 , G06F40/211 , G06F40/289 , G06F40/295
Abstract: 本发明公开了一种发现企业金融风险的六维分析方法,包括以下步骤:S1、获取被监测企业的基本信息;S2、通过数据采集或接口方式获取企业的相关信息;S3、五维风险评分;S4、业务专家进行业务风险评分;S5、六维风险评分。有益效果:本发明能够从六个维度对企业进行金融风险分析,有助于国家尽早发现企业金融风险,并根据不同风险类型采取不同的风险防范及处置措施。
-
公开(公告)号:CN112131863B
公开(公告)日:2022-07-19
申请号:CN202010772735.1
申请日:2020-08-04
Applicant: 中科天玑数据科技股份有限公司
IPC: G06F40/216 , G06F40/242 , G06F16/35 , G06F40/35
Abstract: 本发明提供了一种评论观点主题抽取方法,包括:采集社交软件中评论,获得评论文本;对所述评论文本进行预处理,将评论文本转换为词向量,形成文本向量;构建观点句分类模型,判断所述评论文本中的句子是否为观点句;聚类所述观点句形成观点主题簇,分别抽取所述观点主题簇中的关键词作为候选观点关键词;在所述候选观点关键词中抽选关键词,并根据词性选择核心词;将与所述核心词匹配的观点句生成主题,形成主题候选集;从每个类别的所述主题候选集中选择一个主题作为最终观点主题。本发明还提供了电子设备和存储介质。从评论文本自动抽取观点主题,以便准确接收网民意见,并判断是否对社会造成舆论,能够直观地了解到社交软件的相关热点话题。
-
-
-
-
-
-
-
-
-