-
公开(公告)号:CN115545027A
公开(公告)日:2022-12-30
申请号:CN202211072425.4
申请日:2022-09-02
Applicant: 之江实验室
IPC: G06F40/295 , G06F40/169
Abstract: 本发明公开了一种基于弱标签标注文本的公司名实体识别方法。该方法包括:将清洗后的弱标签文本集使用通用公司名词库继续标注并切分成多个包含5000样本的文本子集;然后由BERT预训练神经网络和Softmax回归模型构建的模型在每个文本子集上进行训练,在每轮训练结束后,识别并筛选文本中的未标注公司名字段,并使用分词模型过滤无用字段。重复该步骤,直至不再产生新的未标注公司名;最后,将未标注公司名在文本集上继续标注,并将模型在最终标注的文本集上继续训练。此外,本方法在弱标签公司名实体识别场景中,首次考虑了模型在欠拟合状态下能够识别未标注公司名的特性,并使用分词模型过滤模型识别出的无用字段,提高了弱标签公司名实体识别的准确率。
-
公开(公告)号:CN115048940B
公开(公告)日:2024-04-09
申请号:CN202210724689.7
申请日:2022-06-23
Applicant: 之江实验室
IPC: G06F40/30 , G06F40/58 , G06F40/295 , G06F40/242 , G06Q40/06
Abstract: 本发明公开了一种基于实体词属性特征和回译的中文金融文本数据增强方法。该方法包括:首先对输入的金融文本进行文本预处理工作;紧接着,通过命名实体识别和词汇匹配的方法对金融文本中翻译难度较大的实体词使用指代字符进行实体词指代替换以生成金融文本的中间文本和指代字符‑实体映射关系字典;之后,使用回译的方法增强金融文本的中间文本,并使用指代字符‑实体映射关系字典还原文本中的指代字符,进而生成与原文本语义相似的新文本。此外,本方法在中文金融文本的数据增强任务中,首次关注并分析了实体词属性特征对文本数据增强结果的影响,并将不同种类的实体词属性特征分层次处理,提高了数据增强后得到文本的质量。
-
公开(公告)号:CN115936159A
公开(公告)日:2023-04-07
申请号:CN202211016771.0
申请日:2022-08-24
Applicant: 之江实验室
IPC: G06Q10/04 , G06Q40/02 , G06F16/215 , G06F16/2458
Abstract: 本发明公开了一种基于自动特征挖掘的可解释信贷违约率预测方法、系统,首先从客户信用资料库中提取每笔贷款的特征数据,并进行预处理;定义自动特征挖掘的操作算子集O和一种自动特征挖掘方法,并通过该操作算子集O得到自动特征集;构建违约率预测模型,并结合全局可解释方法和局部可解释方法,得到通过全局重要性特征排序、基于当前数据库搜索的反事实样本、基于特征扰动和生成模型的虚拟反事实样本,基于此给出可解释信贷违约率预测。本发明方法使得违约预测模型训练和更新无需专家经验干预,缓解专家经验差异大的问题,节省人力,能够满足审计需求,同时针对一线客户经理给出判断依据和相似判例参考。
-
公开(公告)号:CN115860929A
公开(公告)日:2023-03-28
申请号:CN202210931653.6
申请日:2022-08-04
Applicant: 之江实验室 , 浙江农村商业联合银行股份有限公司
IPC: G06Q40/04 , G06F16/35 , G06F40/205 , G06F40/30 , G06F18/23 , G06F18/22 , G06F18/2433
Abstract: 本发明公开了一种基于张量分布搜索特征空间的异常交易行为检测方法,选取可能涉及到异常交易流水的n维原始数据,并对其预处理,将n维原始数据统一转化为包含多个描述金融行为的离散枚举类型属性A的n维矩阵R(A1,A2,…,An);计算得到每一条数据记录的权重X;将离散枚举类型属性A与权重X处理数据得到的多维张量R(A1,A2,…,An,X)作为当前候选数据,进行子张量搜索,在当前候选数据中选取最有可能得到异常权重分布的属性搜索当前属性组合集合与当前候选数据R权重分布差异最大的集合作为异常子张量集合,即异常交易行为集合。本发明方法增加了模型的适应性与泛化能力。对获得的不同异常子张量可进行异常度排序,提高异常挖掘效率。
-
公开(公告)号:CN115438054A
公开(公告)日:2022-12-06
申请号:CN202211017850.3
申请日:2022-08-24
Applicant: 之江实验室
IPC: G06F16/23 , G06F16/901 , G06N20/00
Abstract: 本发明公开了一种基于专家统计特征的增量计算更新方法、电子设备、介质,本发明方法分为离线计算和在线计算,其中离线计算首先读取专家统计特征的配置信息;然后抽取历史数据的统计特征的用户统计关联信息;最后持久化历史数据的统计关联信息。在线计算首先读取专家统计特征的配置信息;然后抽取新增数据的统计特征的用户统计关联信息;同时读取历史数据持久化的用户统计关联信息;接下来基于历史和新增数据抽取得到的统计关联信息生成更新后的离线数据统计关联信息并执行持久化操作;最后基于更新后的离线数据的统计关联信息生成对应的统计特征。本发明方法针对低服务器资源的情况,仍然能够高效的输出统计特征。
-
公开(公告)号:CN115048940A
公开(公告)日:2022-09-13
申请号:CN202210724689.7
申请日:2022-06-23
Applicant: 之江实验室
IPC: G06F40/30 , G06F40/58 , G06F40/295 , G06F40/242 , G06Q40/06
Abstract: 本发明公开了一种基于实体词属性特征和回译的中文金融文本数据增强方法。该方法包括:首先对输入的金融文本进行文本预处理工作;紧接着,通过命名实体识别和词汇匹配的方法对金融文本中翻译难度较大的实体词使用指代字符进行实体词指代替换以生成金融文本的中间文本和指代字符‑实体映射关系字典;之后,使用回译的方法增强金融文本的中间文本,并使用指代字符‑实体映射关系字典还原文本中的指代字符,进而生成与原文本语义相似的新文本。此外,本方法在中文金融文本的数据增强任务中,首次关注并分析了实体词属性特征对文本数据增强结果的影响,并将不同种类的实体词属性特征分层次处理,提高了数据增强后得到文本的质量。
-
-
-
-
-