一种文本分类方法
    21.
    发明公开

    公开(公告)号:CN116127079A

    公开(公告)日:2023-05-16

    申请号:CN202310425424.1

    申请日:2023-04-20

    Abstract: 本发明提供一种文本分类方法,基于待分类文本段的文本特征向量与各个文本类别的支持文本特征向量之间的语义相似度,确定该待分类文本段所属的文本类别,即使部分文本类别的支持文本段数量较少,仍能根据该文本类别的支持文本段的文本特征向量准确地归纳出该文本类别的支持文本特征向量,从而根据上述语义相似度识别出属于该文本类别的待分类文本段,减少多标签分类场景下遗漏类别标签的概率;此外,在进行文本特征提取时,充分运用了对应文本段的语法结构,从而提取更准确、更丰富的上下文信息,以结合各个非停用词本身的语义信息以及上下文语义信息进行整体语义提取,有助于提升政务文本分类的准确性。

    融合领域知识的预训练模型训练方法、数据处理方法

    公开(公告)号:CN116028821A

    公开(公告)日:2023-04-28

    申请号:CN202310314738.4

    申请日:2023-03-29

    Abstract: 本发明提供融合领域知识的预训练模型训练方法、数据处理方法,服务器在判断接收到模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集;得到多个第一领域样本集与目标领域样本集的样本集相似度系数,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集;将第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。

    一种规则引擎驱动的数据融合方法

    公开(公告)号:CN110347878B

    公开(公告)日:2022-03-15

    申请号:CN201910515522.8

    申请日:2019-06-14

    Abstract: 本发明属于数据融合技术领域,公开了一种规则引擎驱动的数据融合方法,包括以下步骤:设置融合规则的表达规范;设置融合引擎的实现规范;制定数据预处理、数据集成、同名实体匹配、同名实体融合四个阶段的融合规则,并构建四个阶段相应的融合规则库;解析四个阶段融合规则库中的融合规则,针对每一个融合规则创建一个对应的融合引擎,并构建四个阶段相应的融合引擎库;读取多源异构数据;用户指定融合规则,创建数据融合任务,调用融合引擎自动完成数据的融合过程。本发明解决了现有技术中的数据融合方法难以满足对数据的动态需求的问题。

    一种基于命名规则和缓存机制的知识图谱构的操作方法

    公开(公告)号:CN113434610A

    公开(公告)日:2021-09-24

    申请号:CN202110764250.2

    申请日:2021-07-06

    Abstract: 本发明提供了一种基于命名规则和缓存机制的知识图谱构的操作方法,包括以下步骤:数据采集‑知识图谱schema设计‑制定缓存策略‑命名规则制定‑图谱数据管理模块开发‑实体关系数据抽取‑数据缓存及更新校对‑图谱生成及二次校对‑缓存数据备份及管理。本发明能够利用缓存机制提升海量数据情况下的知识图谱构建生成效率、降低知识图谱构建过程中的数据校对和日志生成管理难度、支撑知识图谱数据回滚功能的实现;能够利用合理的命名规则和功能模块降低知识图谱数据管理的难度并实现缓存文件的自动处理、对比、知识图谱数据导入更新以及回滚,从而降低图谱构建和管理的难度、提升图谱构建速度、支撑图谱构建使用全生命周期管理需求的实现。

    一种个人简历数据编码及连续数值化方法

    公开(公告)号:CN113919824A

    公开(公告)日:2022-01-11

    申请号:CN202111371394.8

    申请日:2021-11-18

    Abstract: 本发明提供了一种个人简历数据编码及连续数值化方法,包括以下步骤:简历数据获取及存储‑数据脱敏脱密‑简历数据质量分析‑简历数据预处理‑结构化数据连续数值化‑文本数据语义理解及连续数值化‑数据继承及组合。本发明通过客观数据统计分析、概率分布计算、文本语义理解与表示、经验常识归纳与电子化等技术的结合实现个人简历数据的处理、编码及连续数值化,在尽可能保留原始数据信息的基础上降低了数据使用难度,为后续的人员稳定性分析、人岗匹配度分析、人员履职能力分析等应用提供了高质量的连续数值型数据支撑,有利于提升整体数据利用率、数据分析挖掘准确率、算法模型综合性能以及技术原理可解释性。

    一种个人简历数据编码及连续数值化方法

    公开(公告)号:CN113435856A

    公开(公告)日:2021-09-24

    申请号:CN202110764281.8

    申请日:2021-07-06

    Abstract: 本发明提供了一种个人简历数据编码及连续数值化方法,包括以下步骤:简历数据获取及存储‑数据脱敏脱密‑简历数据质量分析‑简历数据预处理‑结构化数据连续数值化‑文本数据语义理解及连续数值化‑数据继承及组合。本发明通过客观数据统计分析、概率分布计算、文本语义理解与表示、经验常识归纳与电子化等技术的结合实现个人简历数据的处理、编码及连续数值化,在尽可能保留原始数据信息的基础上降低了数据使用难度,为后续的人员稳定性分析、人岗匹配度分析、人员履职能力分析等应用提供了高质量的连续数值型数据支撑,有利于提升整体数据利用率、数据分析挖掘准确率、算法模型综合性能以及技术原理可解释性。

Patent Agency Ranking