面向不平衡数据的自步半监督集成分类器训练方法及系统

    公开(公告)号:CN116910660B

    公开(公告)日:2024-01-23

    申请号:CN202311145834.7

    申请日:2023-09-07

    Abstract: 本发明提供了一种面向不平衡数据的自步半监督集成分类器训练方法及系统,其属于数据处理技术领域,该方案通过结合分类器和加权k近邻确定安全的伪标注样本,来提高伪标注样本的质量;然后,使用基于聚类的自步学习选择伪标注样本,有效提高添加的伪标注样本的多样性并缓解错误积累;最后,利用增强后的平衡样本集训练基分类器并集成,来缓解由不平衡的类分布造成的分类器偏差,特别是对于医疗领域的图像分类、征信风险评估领域的风险评估等经常存在数据样本不平衡的情况下,能够有效保证训练后分类器分类结果的准确性。(56)对比文件Hongjiao Guan 等.A GeneralizedOptimization Embedded Framework ofUnfersampling Ensembles for ImbalancedClassification《.researchGate》.2021,第1-10页.Yangguang Shao.Dual Self-Paced SMOTEfor Imbalanced Data《.2022 26thInternational Conference on PattenRecognition》.2022,第3083-3089页.

    基于新匹配得分和新标签注意力得分的中医证型辨证方法和装置

    公开(公告)号:CN118430756A

    公开(公告)日:2024-08-02

    申请号:CN202410553840.4

    申请日:2024-05-07

    Abstract: 本发明公开了基于新匹配得分和新标签注意力得分的中医证型辨证方法和装置、存储介质、电子设备,属于自然语言处理技术领域及计算机人工智能领域,本发明要解决的技术问题为如何使用自然语言处理技术依据患者的临床文本为患者选择合适的证型,从而减少医生的工作量,提高诊疗效率,采用的技术方案为:①基于新匹配得分和新标签注意力得分的中医证型辨证方法,该方法包括如下步骤:S1、构建中医辨证模型训练数据集;S2、构建中医辨证模型;S3、训练中医辨证模型。②基于新匹配得分和新标签注意力得分的中医证型辨证装置,该装置包括:中医辨证模型训练数据集构建单元、中医辨证模型构建单元、中医辨证模型训练单元。

    基于关系融合和信息融合的医疗实体消歧方法和装置

    公开(公告)号:CN117312575A

    公开(公告)日:2023-12-29

    申请号:CN202311278626.4

    申请日:2023-10-07

    Abstract: 本发明公开了基于关系融合和信息融合的医疗实体消歧方法和装置,属于人工智能、自然语言处理领域。本发明要解决的技术问题为如何使用自然语言处理技术增强医疗实体提及的上下文表示和候选医疗实体的表示,从而准确地判断医疗实体提及所对应的候选医疗实体。采用的技术方案为:①基于关系融合和信息融合的医疗实体消歧方法,该方法包括如下步骤:S1、构建医疗实体消歧知识库;S2、构建医疗实体消歧模型数据集;S3、构建医疗实体消歧模型;S4、训练医疗实体消歧模型。②基于关系融合和信息融合的医疗实体消歧装置,该装置包括:医疗实体消歧知识库构建单元、医疗实体消歧模型数据集构建单元、医疗实体消歧模型构建单元和医疗实体消歧模型训练单元。

    基于显式和隐式兴趣特征的智能新闻推荐方法和系统

    公开(公告)号:CN116340641A

    公开(公告)日:2023-06-27

    申请号:CN202310412932.6

    申请日:2023-04-13

    Abstract: 本发明公开了一种基于显式和隐式兴趣特征的智能新闻推荐方法和系统,解决的技术问题为现有的新闻推荐方法无法识别显式和隐式兴趣特征,从而导致推荐结果不准确的问题,采用的技术方案为:该方法具体如下:S1、构建新闻推荐模型的训练数据集;S2:构建基于显式和隐式兴趣特征的新闻推荐模型:具体如下:S201、构建新闻编码器;S202、构建显式兴趣编码器、S203、构建词频‑逆向文件频率TF‑IDF算法模块;S204、构建隐式兴趣编码器;S205、构建图神经网络;S206、构建隐式兴趣解码器;S207、构建点击率预测器;S3、训练基于显式和隐式兴趣特征的新闻推荐模型。该系统包括训练数据集生成单元、基于显式和隐式兴趣特征的新闻推荐模型构建单元和模型训练单元。

    基于双重自步学习的不平衡征信数据风险评估方法及系统

    公开(公告)号:CN115907972A

    公开(公告)日:2023-04-04

    申请号:CN202310067258.2

    申请日:2023-01-16

    Abstract: 本发明提出了基于双重自步学习的不平衡征信数据风险评估方法及系统,涉及数据评估领域,对原始征信样本集进行样本难度计算,进而得到样本难度的概率密度函数;根据样本难度的概率密度函数,分别对高风险样本和低风险样本进行多次自步上采样和自步下采样,生成多个样本数量平衡的征信样本集;基于多个征信样本集,训练多个基分类器,将基分类器融合得到风险评估模型;通过风险评估模型对待评估的征信数据进行风险类型预测,以生成并输出风险类型;本发明采用自步上采样和自步下采样分别处理高风险和低风险征信样本,得到平衡征信样本集,训练最终的风险评估模型,用于评估某个征信用户为高风险或低风险,提高对不平衡的征信数据的分类准确率。

    基于动态图神经网络的序列疾病预测方法和装置

    公开(公告)号:CN117711628A

    公开(公告)日:2024-03-15

    申请号:CN202311699331.4

    申请日:2023-12-12

    Abstract: 本发明公开了一种基于动态图神经网络的序列疾病预测方法和装置,属于自然语言处理技术领域。本发明要解决的技术问题为如何利用动态图捕捉患者历史就诊的时序特征以及疾病发展的动态特征,以实现序列就诊预测,采用的技术方案为:①一种基于动态图神经网络的序列疾病预测方法,该方法包括如下步骤:S1、预处理序列疾病预测模型数据集;S2、构建序列疾病预测模型训练数据集;S3、构建序列疾病预测模型;S4、训练序列疾病预测模型。②一种基于动态图神经网络的序列疾病预测装置,该装置包括:预处理数据集单元、构建训练数据集单元、序列疾病预测模型构建单元以及序列疾病预测模型训练单元。

Patent Agency Ranking