-
公开(公告)号:CN116127079A
公开(公告)日:2023-05-16
申请号:CN202310425424.1
申请日:2023-04-20
Applicant: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
IPC: G06F16/35 , G06F40/279 , G06F40/216
Abstract: 本发明提供一种文本分类方法,基于待分类文本段的文本特征向量与各个文本类别的支持文本特征向量之间的语义相似度,确定该待分类文本段所属的文本类别,即使部分文本类别的支持文本段数量较少,仍能根据该文本类别的支持文本段的文本特征向量准确地归纳出该文本类别的支持文本特征向量,从而根据上述语义相似度识别出属于该文本类别的待分类文本段,减少多标签分类场景下遗漏类别标签的概率;此外,在进行文本特征提取时,充分运用了对应文本段的语法结构,从而提取更准确、更丰富的上下文信息,以结合各个非停用词本身的语义信息以及上下文语义信息进行整体语义提取,有助于提升政务文本分类的准确性。
-
公开(公告)号:CN116028821A
公开(公告)日:2023-04-28
申请号:CN202310314738.4
申请日:2023-03-29
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/214 , G06F18/22 , G06F40/284
Abstract: 本发明提供融合领域知识的预训练模型训练方法、数据处理方法,服务器在判断接收到模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集;得到多个第一领域样本集与目标领域样本集的样本集相似度系数,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集;将第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。
-
公开(公告)号:CN110347878B
公开(公告)日:2022-03-15
申请号:CN201910515522.8
申请日:2019-06-14
Applicant: 中电科大数据研究院有限公司 , 武汉大学
Abstract: 本发明属于数据融合技术领域,公开了一种规则引擎驱动的数据融合方法,包括以下步骤:设置融合规则的表达规范;设置融合引擎的实现规范;制定数据预处理、数据集成、同名实体匹配、同名实体融合四个阶段的融合规则,并构建四个阶段相应的融合规则库;解析四个阶段融合规则库中的融合规则,针对每一个融合规则创建一个对应的融合引擎,并构建四个阶段相应的融合引擎库;读取多源异构数据;用户指定融合规则,创建数据融合任务,调用融合引擎自动完成数据的融合过程。本发明解决了现有技术中的数据融合方法难以满足对数据的动态需求的问题。
-
公开(公告)号:CN113434610A
公开(公告)日:2021-09-24
申请号:CN202110764250.2
申请日:2021-07-06
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/28 , G06F16/23 , G06F16/2458 , G06F16/2455 , G06F16/215 , G06F11/14
Abstract: 本发明提供了一种基于命名规则和缓存机制的知识图谱构的操作方法,包括以下步骤:数据采集‑知识图谱schema设计‑制定缓存策略‑命名规则制定‑图谱数据管理模块开发‑实体关系数据抽取‑数据缓存及更新校对‑图谱生成及二次校对‑缓存数据备份及管理。本发明能够利用缓存机制提升海量数据情况下的知识图谱构建生成效率、降低知识图谱构建过程中的数据校对和日志生成管理难度、支撑知识图谱数据回滚功能的实现;能够利用合理的命名规则和功能模块降低知识图谱数据管理的难度并实现缓存文件的自动处理、对比、知识图谱数据导入更新以及回滚,从而降低图谱构建和管理的难度、提升图谱构建速度、支撑图谱构建使用全生命周期管理需求的实现。
-
公开(公告)号:CN110909545A
公开(公告)日:2020-03-24
申请号:CN201911173486.8
申请日:2019-11-26
Applicant: 电子科技大学 , 中电科大数据研究院有限公司
IPC: G06F40/289 , G06F40/30 , G06F16/951 , G06F16/955 , G06K9/62 , G06N3/04 , G06N3/08 , G06Q50/14
Abstract: 本发明公开一种基于梯度提升算法的黑导游检测方法,应用于数据检测领域,针对现有的旅游行业监管滞后问题,本发明通过获取网站新闻URL数据,并基于词嵌入训练得到词向量模型;并基于获得的词向量模型,采用梯度提升算法训练得到黑导游类别预测模型;最后通过向得到的黑导游类别预测模型输入投诉文本,得到预测类型,相比于现有的人工数据检测,显著提高了检测效率。
-
公开(公告)号:CN110287379A
公开(公告)日:2019-09-27
申请号:CN201910523223.9
申请日:2019-06-17
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/901 , G06F16/903
Abstract: 本发明提供一种基于逻辑树的表格拆分与数据提取方法,通构建表格逻辑树方式对表格进行按逻辑行和逻辑列的拆分,并通过对应到逻辑树的位置进行编码。通过逻辑树的表格拆分方式,实现了灵活地对表格进行搜索查询、拆分和数据提取,便于在政务数据表格处理的过程中,将不同部门的表格汇总到上级部门,同时也可以快速为下级部门提取所需的数据信息,实现了表格的智能关联。
-
公开(公告)号:CN116842099B
公开(公告)日:2024-03-19
申请号:CN202310517767.0
申请日:2023-05-09
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/27 , G06F16/36 , G06F16/2455 , G06F16/2457 , G06N5/01 , G06N5/02 , G06F18/22 , G06F18/2433 , G06F18/25
Abstract: 本发明涉及信息处理领域,公开了一种多源异构数据处理方法和系统,通过配置服务器群包括元服务器,数据服务器,关系服务器及控制器;通过关系服务器根据历史知识图谱和词典数据的信息,将元数据归属于不同的主题下,通过构建主题之间的逻辑关联关系,对获取到的数据做清洗;借助于控制器和用户的反馈机制,通过触发验证机制,预先在数据服务器中对数据源做标引,执行数据信息的可信度评估并做约束控制,有效保障异构数据处理的效率和便捷。
-
公开(公告)号:CN116842099A
公开(公告)日:2023-10-03
申请号:CN202310517767.0
申请日:2023-05-09
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/27 , G06F16/36 , G06F16/2455 , G06F16/2457 , G06N5/01 , G06N5/02 , G06F18/22 , G06F18/2433 , G06F18/25
Abstract: 本发明涉及信息处理领域,公开了一种多源异构数据处理方法和系统,通过配置服务器群包括元服务器,数据服务器,关系服务器及控制器;通过关系服务器根据历史知识图谱和词典数据的信息,将元数据归属于不同的主题下,通过构建主题之间的逻辑关联关系,对获取到的数据做清洗;借助于控制器和用户的反馈机制,通过触发验证机制,预先在数据服务器中对数据源做标引,执行数据信息的可信度评估并做约束控制,有效保障异构数据处理的效率和便捷。
-
公开(公告)号:CN113919824A
公开(公告)日:2022-01-11
申请号:CN202111371394.8
申请日:2021-11-18
Applicant: 中国雄安集团有限公司 , 中电科大数据研究院有限公司
IPC: G06Q10/10 , G06Q10/06 , G06F16/215 , G06F16/28 , G06F16/29
Abstract: 本发明提供了一种个人简历数据编码及连续数值化方法,包括以下步骤:简历数据获取及存储‑数据脱敏脱密‑简历数据质量分析‑简历数据预处理‑结构化数据连续数值化‑文本数据语义理解及连续数值化‑数据继承及组合。本发明通过客观数据统计分析、概率分布计算、文本语义理解与表示、经验常识归纳与电子化等技术的结合实现个人简历数据的处理、编码及连续数值化,在尽可能保留原始数据信息的基础上降低了数据使用难度,为后续的人员稳定性分析、人岗匹配度分析、人员履职能力分析等应用提供了高质量的连续数值型数据支撑,有利于提升整体数据利用率、数据分析挖掘准确率、算法模型综合性能以及技术原理可解释性。
-
公开(公告)号:CN113435856A
公开(公告)日:2021-09-24
申请号:CN202110764281.8
申请日:2021-07-06
Applicant: 中电科大数据研究院有限公司
IPC: G06Q10/10 , G06Q10/06 , G06F16/215 , G06F16/28 , G06F16/29
Abstract: 本发明提供了一种个人简历数据编码及连续数值化方法,包括以下步骤:简历数据获取及存储‑数据脱敏脱密‑简历数据质量分析‑简历数据预处理‑结构化数据连续数值化‑文本数据语义理解及连续数值化‑数据继承及组合。本发明通过客观数据统计分析、概率分布计算、文本语义理解与表示、经验常识归纳与电子化等技术的结合实现个人简历数据的处理、编码及连续数值化,在尽可能保留原始数据信息的基础上降低了数据使用难度,为后续的人员稳定性分析、人岗匹配度分析、人员履职能力分析等应用提供了高质量的连续数值型数据支撑,有利于提升整体数据利用率、数据分析挖掘准确率、算法模型综合性能以及技术原理可解释性。
-
-
-
-
-
-
-
-
-