基于蒸馏提升BERT的财经新闻情感分析方法和装置

    公开(公告)号:CN118607511A

    公开(公告)日:2024-09-06

    申请号:CN202411081248.5

    申请日:2024-08-08

    Abstract: 本发明公开了一种基于蒸馏提升BERT的财经新闻情感分析方法和装置,方法包括以下步骤:利用大语言模型构建情感感知摘要数据集;对BERT模型进行领域自适应预训练;构建包括预训练后的BERT模型、双向GRU网络和基于注意力机制的指针网络的情绪语句摘要任务模型,对情感语句摘要任务模型进行微调;利用大语言模型对预训练后的BERT模型进行知识蒸馏;利用微调后的情感语句摘要任务模型和知识蒸馏后的BERT模型进行情感类别分析。本发明能够将大语言模型的情感分析能力迁移到训练硬件需求更小、更易部署、计算效率更高的BERT模型上,提高财经新闻情感分析的效率和准确性,为用户提供更有价值的情感分析结果。

    一种基于贪心算法的机器学习分类模型解释方法

    公开(公告)号:CN116050539A

    公开(公告)日:2023-05-02

    申请号:CN202211687370.8

    申请日:2022-12-27

    Abstract: 一种基于贪心算法的机器学习分类模型解释方法,该方法使用贪心算法组合特征箱体,分别以每个筛选后箱体为起点,获得特征箱体组合。将特征匹配学习的特征箱体组合,可以对目标的特征统计情况有更加全面的了解并以此对机器学习结果做出解释。本方法运用贪心策略,对特征进行了筛选与组合,为企业提供了一种更加直观的客户筛选方法,在实际应用中主要用于辅助解释黑匣模型预测结果,服务一线业务人员。

    基于贷款五级分类的滚动率分析方法、系统、电子设备、介质

    公开(公告)号:CN116012137A

    公开(公告)日:2023-04-25

    申请号:CN202211623333.0

    申请日:2022-12-16

    Abstract: 本发明公开了一种基于贷款五级分类的滚动率分析方法、系统、电子设备、介质,方法包括:自定义设置初始时间节点和结束时间节点,以确定贷款滚动率分析的时间窗口;获得贷款五级分类相关的原始状态变更数据;将获取的原始状态变更数据中的贷款初始评定五级分类状态的时间点限定在时间窗口内,得到目标状态变更数据;统计目标状态变更数据中状态变更的数量,得到贷款五级分类状态的滚动率;根据贷款五级分类状态的滚动率,分析贷款五级分类状态的比例分布,融合专家经验,确定正常贷款与违约贷款的切分阈值。本发明方法仅依赖少量的原始数据,泛化性强,实用性强;本发明方法同时支持融合专家逻辑,使得过程可追溯,结果可解释,易于推广。

    一种基于聚类和对比学习的中文问句文本表示学习的方法

    公开(公告)号:CN115906835A

    公开(公告)日:2023-04-04

    申请号:CN202211480390.8

    申请日:2022-11-23

    Inventor: 王艺涵 李栓 许浩

    Abstract: 本发明公开一种基于聚类和对比学习的中文问句文本表示学习的方法,该方法先对中文问句语料进行清洗,然后进行聚类,将字面相似的样本划分在相同的子集中;按顺序选定子集并按批次抽取问句,将不同批次问句按顺序输入SimCLR对比学习框架中,并生成与每个问句对应的语义相似问句表示,之后使用对比损失函数拉近问句与语义相似问句之间的距离,并扩大该问句与同批次其他问句之间的距离,得到训练好的SimCLR对比学习模型;最后将新的中文问句语料也进行相同的清洗和聚类,并将聚类后的子集按批次输入训练好的SimCLR对比学习模型,得到分类后的中文问句语料,实现中文问句语料的自动打标。本发明有效提升了模型对问句文本之间差异的辨析性能。

    基于文章实体词依赖关系的金融领域篇章级事件抽取方法

    公开(公告)号:CN113255321A

    公开(公告)日:2021-08-13

    申请号:CN202110648901.1

    申请日:2021-06-10

    Abstract: 本发明公开了一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法,设计了一种结构化依赖自注意力机制模块,该模块将文章中的实体词依赖关系作为事件抽取深度学习模型的一种输入数据,与词级、语句级的语言特征结合以提升深度学习模型在进行金融事件抽取时的对事件触发词和事件论元的预测精度。此外,本发明在中文金融事件抽取任务中,首次提出8种不同类型的实体关系,用于统一化表示文章中的实体依赖关系。本发明同时构建了一套金融领域的层次事件关系,用于模型区分相似的事件类型。本发明从系统输入到系统输出,逻辑结构清晰,层次分明,系统实现细节详尽,实现了一种端到端的系统闭合工作方式,极易落地和大规模应用。

Patent Agency Ranking