-
公开(公告)号:CN118607511A
公开(公告)日:2024-09-06
申请号:CN202411081248.5
申请日:2024-08-08
Applicant: 之江实验室
IPC: G06F40/205 , G06N3/0442 , G06N3/0455 , G06N3/084
Abstract: 本发明公开了一种基于蒸馏提升BERT的财经新闻情感分析方法和装置,方法包括以下步骤:利用大语言模型构建情感感知摘要数据集;对BERT模型进行领域自适应预训练;构建包括预训练后的BERT模型、双向GRU网络和基于注意力机制的指针网络的情绪语句摘要任务模型,对情感语句摘要任务模型进行微调;利用大语言模型对预训练后的BERT模型进行知识蒸馏;利用微调后的情感语句摘要任务模型和知识蒸馏后的BERT模型进行情感类别分析。本发明能够将大语言模型的情感分析能力迁移到训练硬件需求更小、更易部署、计算效率更高的BERT模型上,提高财经新闻情感分析的效率和准确性,为用户提供更有价值的情感分析结果。
-
公开(公告)号:CN116050539A
公开(公告)日:2023-05-02
申请号:CN202211687370.8
申请日:2022-12-27
Applicant: 之江实验室
Abstract: 一种基于贪心算法的机器学习分类模型解释方法,该方法使用贪心算法组合特征箱体,分别以每个筛选后箱体为起点,获得特征箱体组合。将特征匹配学习的特征箱体组合,可以对目标的特征统计情况有更加全面的了解并以此对机器学习结果做出解释。本方法运用贪心策略,对特征进行了筛选与组合,为企业提供了一种更加直观的客户筛选方法,在实际应用中主要用于辅助解释黑匣模型预测结果,服务一线业务人员。
-
公开(公告)号:CN116012137A
公开(公告)日:2023-04-25
申请号:CN202211623333.0
申请日:2022-12-16
Applicant: 之江实验室 , 浙江农村商业联合银行股份有限公司
Abstract: 本发明公开了一种基于贷款五级分类的滚动率分析方法、系统、电子设备、介质,方法包括:自定义设置初始时间节点和结束时间节点,以确定贷款滚动率分析的时间窗口;获得贷款五级分类相关的原始状态变更数据;将获取的原始状态变更数据中的贷款初始评定五级分类状态的时间点限定在时间窗口内,得到目标状态变更数据;统计目标状态变更数据中状态变更的数量,得到贷款五级分类状态的滚动率;根据贷款五级分类状态的滚动率,分析贷款五级分类状态的比例分布,融合专家经验,确定正常贷款与违约贷款的切分阈值。本发明方法仅依赖少量的原始数据,泛化性强,实用性强;本发明方法同时支持融合专家逻辑,使得过程可追溯,结果可解释,易于推广。
-
公开(公告)号:CN115906835A
公开(公告)日:2023-04-04
申请号:CN202211480390.8
申请日:2022-11-23
Applicant: 之江实验室
IPC: G06F40/289 , G06F40/30 , G06F40/216 , G06F18/23 , G06F18/22
Abstract: 本发明公开一种基于聚类和对比学习的中文问句文本表示学习的方法,该方法先对中文问句语料进行清洗,然后进行聚类,将字面相似的样本划分在相同的子集中;按顺序选定子集并按批次抽取问句,将不同批次问句按顺序输入SimCLR对比学习框架中,并生成与每个问句对应的语义相似问句表示,之后使用对比损失函数拉近问句与语义相似问句之间的距离,并扩大该问句与同批次其他问句之间的距离,得到训练好的SimCLR对比学习模型;最后将新的中文问句语料也进行相同的清洗和聚类,并将聚类后的子集按批次输入训练好的SimCLR对比学习模型,得到分类后的中文问句语料,实现中文问句语料的自动打标。本发明有效提升了模型对问句文本之间差异的辨析性能。
-
公开(公告)号:CN115455975A
公开(公告)日:2022-12-09
申请号:CN202210550469.7
申请日:2022-05-18
Applicant: 之江实验室
IPC: G06F40/30 , G06F40/289 , G06F40/216 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于多模型融合决策提取主题关键词的方法及装置。本发明综合不同类型的关键词提取方法,再投票选举获得最终的主题关键词。本发明与现有的技术相比,既利用了多种主流算法,相互之间作为参考,大大提高了预测的准确率,且实用性强,操作简单,易于推广。本发明将综合多种模型,既考虑了词频,也考虑语意,提高关键词提取的适用场景,在复杂的文本场景下都能达到最优的效果。
-
公开(公告)号:CN113255321A
公开(公告)日:2021-08-13
申请号:CN202110648901.1
申请日:2021-06-10
Applicant: 之江实验室
IPC: G06F40/211 , G06F40/216 , G06F40/295
Abstract: 本发明公开了一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法,设计了一种结构化依赖自注意力机制模块,该模块将文章中的实体词依赖关系作为事件抽取深度学习模型的一种输入数据,与词级、语句级的语言特征结合以提升深度学习模型在进行金融事件抽取时的对事件触发词和事件论元的预测精度。此外,本发明在中文金融事件抽取任务中,首次提出8种不同类型的实体关系,用于统一化表示文章中的实体依赖关系。本发明同时构建了一套金融领域的层次事件关系,用于模型区分相似的事件类型。本发明从系统输入到系统输出,逻辑结构清晰,层次分明,系统实现细节详尽,实现了一种端到端的系统闭合工作方式,极易落地和大规模应用。
-
-
-
-
-