一种基于词权统计和预训练模型的文本分类方法及装置

    公开(公告)号:CN118535743B

    公开(公告)日:2024-11-05

    申请号:CN202411004264.4

    申请日:2024-07-25

    Abstract: 本发明公开了一种基于词权统计和预训练模型的文本分类方法及装置,主要包括以下步骤:获取文本语料并存储在文本数据库中;对文本语料进行数据清洗得到文本数据集;利用词频‑逆标签集频率算法生成词‑标签权重词典;利用词‑标签权重词典生成文本权重得分向量结合预处理后的文本经文本分类模型得到文本分类预测结果,对模型进行迭代训练;利用预训练后的文本分类模型对新输入文本进行分类。本发明将每个词相对于每个标签的重要程度作为先验知识,之后在文本分类模型中使用注意力机制将该先验知识融入预训练BERT模型输出的文本语义表示中,能够进一步提高文本分类的准确率和效率。

    一种绿色金融环境和社会风险的预警方法、装置及系统

    公开(公告)号:CN116523619A

    公开(公告)日:2023-08-01

    申请号:CN202310277065.X

    申请日:2023-03-21

    Abstract: 本发明公开了一种绿色金融环境和社会风险的预警方法,包括以下步骤:采集与企业相关的工商信息,司法信息以及周边新闻,组成原始环境数据;基于预警类型对原始环境数据进行分类,基于分类结果构建包括环境行政处罚企业,环境违法失信黑名单企业以及安全生产违法违规企业的预警数据库;创建中文自定义词典对所述预警数据库进行筛选,生成预警任务列表;根据企业整改情况对所述预警任务列表进行核对和分类,生成所有企业的环境社会风险预警结果。本发明还提供了一种预警装置和预警系统。本发明提供的方法提高绿色金融领域环境和社会风险管理的自动化程度,减少人工管理成本。

    一种用于数值型数据的智能异常检测方法及装置

    公开(公告)号:CN112328424B

    公开(公告)日:2022-05-06

    申请号:CN202011396662.7

    申请日:2020-12-03

    Abstract: 本发明公开了一种用于数值型数据的智能异常检测方法及装置,该方法包括:上传数据阶段,实现数据上传;数据池阶段,实现数据存储与数据比对;算法池阶段,实现系统智能推荐多种适合当前数据的异常检测算法;算法结果集成阶段,实现汇总各算法的计算结果并得出最终计算结果;异常点判定阶段,实现自主选择异常点判定方法并做出判定;检测结果可视化阶段,实现可视化直观展示数据尤其是异常点。本发明创新地提出了智能辅助算法推荐、算法结果集成和异常点智能判定并将其运用到系统中,极大地简化了用户操作,帮助用户在较少的时间内得到更加准确且易于观察的异常检测结果。

    一种基于类别标签和属性注释的多任务属性场景识别方法

    公开(公告)号:CN114241380A

    公开(公告)日:2022-03-25

    申请号:CN202111547952.1

    申请日:2021-12-16

    Inventor: 保罗 李晓晨 张吉

    Abstract: 本发明涉及场景识别技术领域,尤其涉及一种基于类别标签和属性注释的多任务属性场景识别方法,基于多任务属性场景识别网络MASR,利用并计算对象属性分数对对象属性进行筛选精简,简化属性注释流程,减小由数据引起的训练偏差,此外,在MASR网络中设计并运用了一种属性损失函数与一个属性层,以充分利用上述筛选与精简后的属性特征,根据对象检测分数的重要性级别,对对象属性进行重新加权。本发明有效地注释了四个大规模数据集的属性标签,实验结果表明,与最先进的方法相比,本发明学习了更具辨别力的表示并实现了有竞争力的识别性能。

Patent Agency Ranking