一种文本分类方法
    1.
    发明授权

    公开(公告)号:CN116127079B

    公开(公告)日:2023-06-20

    申请号:CN202310425424.1

    申请日:2023-04-20

    Abstract: 本发明提供一种文本分类方法,基于待分类文本段的文本特征向量与各个文本类别的支持文本特征向量之间的语义相似度,确定该待分类文本段所属的文本类别,即使部分文本类别的支持文本段数量较少,仍能根据该文本类别的支持文本段的文本特征向量准确地归纳出该文本类别的支持文本特征向量,从而根据上述语义相似度识别出属于该文本类别的待分类文本段,减少多标签分类场景下遗漏类别标签的概率;此外,在进行文本特征提取时,充分运用了对应文本段的语法结构,从而提取更准确、更丰富的上下文信息,以结合各个非停用词本身的语义信息以及上下文语义信息进行整体语义提取,有助于提升政务文本分类的准确性。

    一种基于关键词与深度学习的信息识别方法、系统及装置

    公开(公告)号:CN119377409A

    公开(公告)日:2025-01-28

    申请号:CN202411943469.9

    申请日:2024-12-27

    Abstract: 本申请公开了一种基于关键词与深度学习的信息识别方法、系统及装置。本申请方法包括:获取个人数据集和公开数据集;基于个人数据集和公开数据集构建专用词典库;基于公开数据集提取关键字、特定符号以及主题;判断个人数据集与关键字或特定符号是否匹配;若否,则利用主题和专用词典库确定匹配词典;当确定匹配字典后,判断匹配词典与个人数据集是否匹配;若否,则基于个人数据集,通过语言表示模型训练得到嵌入向量;当得到嵌入向量后,将嵌入向量输入至序列神经网络模型中进行建模,得到隐状态序列;将隐状态序列的维度映射至目标维度中,并将已映射至目标维度后的隐状态序列输入至条件随机场算法中,得到个人信息识别结果。

    一种文本分类方法
    5.
    发明公开

    公开(公告)号:CN116127079A

    公开(公告)日:2023-05-16

    申请号:CN202310425424.1

    申请日:2023-04-20

    Abstract: 本发明提供一种文本分类方法,基于待分类文本段的文本特征向量与各个文本类别的支持文本特征向量之间的语义相似度,确定该待分类文本段所属的文本类别,即使部分文本类别的支持文本段数量较少,仍能根据该文本类别的支持文本段的文本特征向量准确地归纳出该文本类别的支持文本特征向量,从而根据上述语义相似度识别出属于该文本类别的待分类文本段,减少多标签分类场景下遗漏类别标签的概率;此外,在进行文本特征提取时,充分运用了对应文本段的语法结构,从而提取更准确、更丰富的上下文信息,以结合各个非停用词本身的语义信息以及上下文语义信息进行整体语义提取,有助于提升政务文本分类的准确性。

    基于反向拍卖的联邦学习激励方法、装置及系统

    公开(公告)号:CN119514732A

    公开(公告)日:2025-02-25

    申请号:CN202510062196.5

    申请日:2025-01-15

    Abstract: 本发明提供一种基于反向拍卖的联邦学习激励方法、装置及系统,该方法包括:通过反向拍卖过程确定参与联邦学习的客户端;初始化全局模型,并将所述全局模型分发给各客户端;接收各客户端发送的更新模型密文;根据所述更新模型密文生成新的全局模型;确定各客户端的奖励,将所述奖励发放给对应的客户端。利用本发明方案,不仅可以实现对联邦学习的参与者数据隐私的有效保护,而且可以实现在有限预算下的资源有效分配,有效提升参与者的积极性,提升联邦学习效率。

    一种基于大模型的敏感数据处理方法、装置及存储介质

    公开(公告)号:CN117272123B

    公开(公告)日:2024-02-27

    申请号:CN202311560860.6

    申请日:2023-11-22

    Abstract: 本申请揭示了一种基于大模型的敏感数据处理方法、装置及存储介质,包括数据采集、模型训练、语义向量映射、向量聚类、敏感等级标识、相似度计算和数据分类。该方法通过训练一个Transformer架构的孪生编码器,将原始数据映射为语义向量集合,并通过向量聚类形成多个语义簇。每个簇被识别并配置相应的敏感等级标识。随着新增数据的出现,这些数据被映射为新增语义向量,并计算与已有簇的相似度。相似度计算和统计用于计算比较特征数值,该特征数值决定了新增数据的敏感等级。这一方法结合了大型模型、向量聚类和半监督学习,以自动处理敏感数据,提高数据的安全性。

    基于大模型的小模型训练方法、装置、系统和存储介质

    公开(公告)号:CN117236409B

    公开(公告)日:2024-02-27

    申请号:CN202311529303.8

    申请日:2023-11-16

    Abstract: 本申请实施例公开了基于大模型的小模型训练方法、装置、系统和存储介质,用于在计算资源与存储空间有限的情况下,在具体的应用场景中提高大模型的应用潜力。本申请实施例小模型训练方法包括:采集目标应用场景的初始样本数据;初始化大模型;将采集到的初始样本数据输入到大模型中,通过generate函数将初始样本数据生成输入文本数据,并将输入文本数据转换为标记序列;使用大模型将标记序列转换为概率分布软标签;将概率分布软标签和对应的输入文本数据进行组合,生成数据集;根据概率分布软标签的维度创建一个循环神经网络模型和损失函数;使用数据集、小模型和损失函数进行训练,生(56)对比文件US 11450225 B1,2022.09.20US 2020387782 A1,2020.12.10US 2022237890 A1,2022.07.28孙璐等.基于自然语言理解的软件产业政策关联性分析技术.电子技术应用.2021,第47卷(第12期),第57-63页.刘文瑶.基于迁移学习的交通标志识别研究.中国优秀硕士学位论文全文数据库 工程科技II辑.2022,(第2期),第C035-171页.Weijiang Fan等.A Framework for MathWord Problem Solving Based on Pre-training Models and Spatial OptimizationStrategies.Computer Supported CooperativeWork and Social Computing.2023,第488-498页.Colin Cherry等.Natural LanguageGeneration for Effective KnowledgeDistillation.Proceedings of the 2ndWorkshop on Deep Learning Approaches forLow-Resource NLP.2019,第202-208页.Chengqiang Lu等.KnowledgeDistillation of Transformer-basedLanguage Models Revisited.arXiv.2022,第1-43页.舒真瀚等.基于知识蒸馏的中文自动语音识别的建模方法.现代计算机.2020,(第8期),第18-22页.

    一种基于大模型的敏感数据处理方法、装置及存储介质

    公开(公告)号:CN117272123A

    公开(公告)日:2023-12-22

    申请号:CN202311560860.6

    申请日:2023-11-22

    Abstract: 本申请揭示了一种基于大模型的敏感数据处理方法、装置及存储介质,包括数据采集、模型训练、语义向量映射、向量聚类、敏感等级标识、相似度计算和数据分类。该方法通过训练一个Transformer架构的孪生编码器,将原始数据映射为语义向量集合,并通过向量聚类形成多个语义簇。每个簇被识别并配置相应的敏感等级标识。随着新增数据的出现,这些数据被映射为新增语义向量,并计算与已有簇的相似度。相似度计算和统计用于计算比较特征数值,该特征数值决定了新增数据的敏感等级。这一方法结合了大型模型、向量聚类和半监督学习,以自动处理敏感数据,提高数据的安全性。

Patent Agency Ranking