基于蒸馏提升BERT的财经新闻情感分析方法和装置

    公开(公告)号:CN118607511B

    公开(公告)日:2024-11-26

    申请号:CN202411081248.5

    申请日:2024-08-08

    Abstract: 本发明公开了一种基于蒸馏提升BERT的财经新闻情感分析方法和装置,方法包括以下步骤:利用大语言模型构建情感感知摘要数据集;对BERT模型进行领域自适应预训练;构建包括预训练后的BERT模型、双向GRU网络和基于注意力机制的指针网络的情绪语句摘要任务模型,对情感语句摘要任务模型进行微调;利用大语言模型对预训练后的BERT模型进行知识蒸馏;利用微调后的情感语句摘要任务模型和知识蒸馏后的BERT模型进行情感类别分析。本发明能够将大语言模型的情感分析能力迁移到训练硬件需求更小、更易部署、计算效率更高的BERT模型上,提高财经新闻情感分析的效率和准确性,为用户提供更有价值的情感分析结果。

    一种同行互评异常评分检测及修正方法和装置

    公开(公告)号:CN115713270B

    公开(公告)日:2023-07-21

    申请号:CN202211505028.1

    申请日:2022-11-28

    Abstract: 本发明公开了一种同行互评异常评分检测及修正方法和装置,该方法包括以下步骤:首先将收集到的评分数据转化为二维矩阵并进行数据预处理;其次利用单向异常检测法、一致性检验法及双向异常检测法对处理后的结构化数据进行异常判断,并将检测出的异常数据归入异常数据集中;然后利用信息熵修正法对异常数据集进行异常数据修复;最后结合异常数据集生成能力评价报告,并结合能力评价报告中评审人的评分权重对修正后的评分数据进行加权平均得到最终评分结果,并生成异常评分修正报告。本发明能够有效检测企业人员绩效考核中同行互评分数异常现象,并通过能力评估报告对评审人进行约束,保证同行互评结果的公平、公正及客观性。

    一种模型训练的方法、业务风控的方法及装置

    公开(公告)号:CN116308738A

    公开(公告)日:2023-06-23

    申请号:CN202310140918.5

    申请日:2023-02-10

    Inventor: 郭鑫泠 许浩 杨耀

    Abstract: 本说明书公开了一种模型训练的方法、业务风控的方法及装置。首先,确定预先构建的业务关系图。其次,获取各用户的目标属性数据以及各用户之间所产生的业务行为的目标业务信息。而后,将业务关系图、各用户的目标属性数据以及各用户之间所产生的业务行为的目标业务信息输入到待训练的风控模型中,预测各用户所属的用户群体以及各用户所属用户群体的风险标签。最后,以最小化各用户所属的用户群体与各用户所属的实际用户群体之间的偏差,以及最小化各用户所属用户群体的风险标签与各用户所属用户群体的实际风险标签之间的偏差为优化目标,对风控模型进行训练。本方法可以提高风控模型确定出的风控结果的准确性。

    一种多方数据协同场景下的隐私保护量化评估方法和系统

    公开(公告)号:CN112380572A

    公开(公告)日:2021-02-19

    申请号:CN202110051389.2

    申请日:2021-01-14

    Abstract: 本发明公开了一种多方数据协同场景下的隐私保护量化评估方法和系统,该方法为数据资源提供方根据算法和保护机制,将所述数据资源输入模型中进行训练,输出满足模型指标和阈值的模型,同时,数据资源提供方利用攻击手段,攻击上述模型,记录并量化模型的隐私泄露情况,输出隐私指标;数据资源使用方和数据资源提供方分别根据模型指标和隐私指标是否满足自身需要,做出是否进行数据合作的决策。本发明提升了在数据共享过程中对隐私风险和数据价值的有效评估和信息披露,有效解决数据资源提供方和数据使用需求方之间的信息不对称问题,有助于构建更加健康和可持续发展的数据共享、交互和交易体系。

    一种基于聚类和对比学习的中文问句文本表示学习的方法

    公开(公告)号:CN115906835B

    公开(公告)日:2024-02-20

    申请号:CN202211480390.8

    申请日:2022-11-23

    Inventor: 王艺涵 李栓 许浩

    Abstract: 本发明公开一种基于聚类和对比学习的中文问句文本表示学习的方法,该方法先对中文问句语料进行清洗,然后进行聚类,将字面相似的样本划分在相同的子集中;按顺序选定子集并按批次抽取问句,将不同批次问句按顺序输入SimCLR对比学习框架中,并生成与每个问句对应的语义相似问句表示,之后使用对比损失函数拉近问句与语义相似问句之间的距离,并扩大该问句与同批次其他问句之间的距离,得到训练好的SimCLR对比学习模型;最后将新的中文问句语料也进行相同的清洗和聚类,并将聚类后的子集按批次输入训练好的SimCLR对比学习模型,得到分类后的中文问句语料,实现中文问句语料的自动打标。本发明有效提升了模型对问句文本之间差异的辨析性能。

    一种融合正则表达式的金融文本关系抽取与分类方法

    公开(公告)号:CN113722495A

    公开(公告)日:2021-11-30

    申请号:CN202111240263.6

    申请日:2021-10-25

    Abstract: 本发明公开了一种融合正则表达式的金融文本关系抽取与分类方法。该方法对金融文本编码后识别出文本中包含的关系实体对并进行标记;将金融文本依次和各项正则表达式进行匹配,将匹配结果转换为正则表达式标签,最后将该标签与标记结果融合,通过深度神经网络对实体对之间包含的关系进行抽取与分类。本发明实现了融合了正则表达式信息的金融文本端到端关系抽取与分类,逻辑结构清晰,层次分明,无需人工标注,节约了人力成本,提升了工作效率,准确率高,实用性强。

Patent Agency Ranking