一种自动分级方法、装置及计算机可读存储介质

    公开(公告)号:CN118964532B

    公开(公告)日:2024-12-20

    申请号:CN202411445923.8

    申请日:2024-10-16

    Abstract: 本申请实施例公开了一种自动分级方法、装置及计算机可读存储介质,可以提高分级结果的准确性。本申请实施例方法包括:构建政策法规本体库和典型案例本体库;将政策法规本体和典型案例本体中的关键字输入预先训练好的词向量模型,得到多个分级关键字向量;获取分级查询信息;将分级查询信息输入词向量模型,得到对应的分级查询向量,其中,分级查询信息中的每一个输入词对应一个分级查询向量;根据分级查询向量和分级关键字向量确定分级查询向量对应的关键字集合,关键字集合包括至少一个关键字;将关键字集合输入推理机进行关于政策法规本体库或典型案例本体库的前向规则推理查询,得到推理机输出的分级结果。

    融合领域知识的预训练模型训练方法、数据处理方法

    公开(公告)号:CN116028821B

    公开(公告)日:2023-06-13

    申请号:CN202310314738.4

    申请日:2023-03-29

    Abstract: 本发明提供融合领域知识的预训练模型训练方法、数据处理方法,服务器在判断接收到模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集;得到多个第一领域样本集与目标领域样本集的样本集相似度系数,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集;将第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。

    融合领域知识的预训练模型训练方法、数据处理方法

    公开(公告)号:CN116028821A

    公开(公告)日:2023-04-28

    申请号:CN202310314738.4

    申请日:2023-03-29

    Abstract: 本发明提供融合领域知识的预训练模型训练方法、数据处理方法,服务器在判断接收到模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集;得到多个第一领域样本集与目标领域样本集的样本集相似度系数,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集;将第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。

    用户潜在偏好挖掘方法及装置

    公开(公告)号:CN119067099B

    公开(公告)日:2025-01-28

    申请号:CN202411562260.8

    申请日:2024-11-05

    Abstract: 本发明提供一种用户潜在偏好挖掘方法及装置,所述方法包括:对获取到的用户文本数据进行预处理,得到句子集合S和词语集合W;基于所述词语集合W中的高频词,生成多个词语关联图;基于所述多个词语关联图以及所述句子集合S,确定低频候选词;将所述低频候选词添加到所述多个词语关联图;基于所述低频候选词与每一高频词之间的共现率,确定潜在偏好事件。本发明提供的用户潜在偏好挖掘方法及装置,在用户意图中挖掘用户的潜在兴趣,寻找出与用户意图有所关联但距离较远的优秀资源,挖掘与用户兴趣关联较差、距离较远的经典精华资源,满足用户的潜在兴趣,并分析隐性关联,从而为用户制造多样性和新颖性,更进一步解决大数据资源中的长尾问题。

    用户潜在偏好挖掘方法及装置

    公开(公告)号:CN119067099A

    公开(公告)日:2024-12-03

    申请号:CN202411562260.8

    申请日:2024-11-05

    Abstract: 本发明提供一种用户潜在偏好挖掘方法及装置,所述方法包括:对获取到的用户文本数据进行预处理,得到句子集合S和词语集合W;基于所述词语集合W中的高频词,生成多个词语关联图;基于所述多个词语关联图以及所述句子集合S,确定低频候选词;将所述低频候选词添加到所述多个词语关联图;基于所述低频候选词与每一高频词之间的共现率,确定潜在偏好事件。本发明提供的用户潜在偏好挖掘方法及装置,在用户意图中挖掘用户的潜在兴趣,寻找出与用户意图有所关联但距离较远的优秀资源,挖掘与用户兴趣关联较差、距离较远的经典精华资源,满足用户的潜在兴趣,并分析隐性关联,从而为用户制造多样性和新颖性,更进一步解决大数据资源中的长尾问题。

    一种网页信息分类方法、装置及存储介质

    公开(公告)号:CN119003920A

    公开(公告)日:2024-11-22

    申请号:CN202411481452.6

    申请日:2024-10-23

    Abstract: 本申请公开了一种网页信息分类方法、装置及存储介质,用于信息分类领域。本申请方法包括:使用Python的Scrapy库从目标网页获取网页中的静态数据;使用Selenium自动化工具从目标网页获取网页的动态数据;基于所述静态数据和所述动态数据构建DOM树形结构;使用XLM‑RoBERTa预训练语言模型对已构建DOM树形结构的所述静态数据和所述动态数据进行向量化,转化为数值向量;将DOM树形结构转换为图结构,并将数值向量输入卷积图神经网络模型中,通过卷积图神经网络模型对图结构进行编码,生成特征向量;将所述特征向量输入预配置的分类模型中进行计算,通过预配置的分类模型对所述静态数据和所述动态数据进行分类。

Patent Agency Ranking