一种基于词权统计和预训练模型的文本分类方法及装置

    公开(公告)号:CN118535743A

    公开(公告)日:2024-08-23

    申请号:CN202411004264.4

    申请日:2024-07-25

    Abstract: 本发明公开了一种基于词权统计和预训练模型的文本分类方法及装置,主要包括以下步骤:获取文本语料并存储在文本数据库中;对文本语料进行数据清洗得到文本数据集;利用词频‑逆标签集频率算法生成词‑标签权重词典;利用词‑标签权重词典生成文本权重得分向量结合预处理后的文本经文本分类模型得到文本分类预测结果,对模型进行迭代训练;利用预训练后的文本分类模型对新输入文本进行分类。本发明将每个词相对于每个标签的重要程度作为先验知识,之后在文本分类模型中使用注意力机制将该先验知识融入预训练BERT模型输出的文本语义表示中,能够进一步提高文本分类的准确率和效率。

    基于实体词属性特征和回译的中文金融文本数据增强方法

    公开(公告)号:CN115048940B

    公开(公告)日:2024-04-09

    申请号:CN202210724689.7

    申请日:2022-06-23

    Abstract: 本发明公开了一种基于实体词属性特征和回译的中文金融文本数据增强方法。该方法包括:首先对输入的金融文本进行文本预处理工作;紧接着,通过命名实体识别和词汇匹配的方法对金融文本中翻译难度较大的实体词使用指代字符进行实体词指代替换以生成金融文本的中间文本和指代字符‑实体映射关系字典;之后,使用回译的方法增强金融文本的中间文本,并使用指代字符‑实体映射关系字典还原文本中的指代字符,进而生成与原文本语义相似的新文本。此外,本方法在中文金融文本的数据增强任务中,首次关注并分析了实体词属性特征对文本数据增强结果的影响,并将不同种类的实体词属性特征分层次处理,提高了数据增强后得到文本的质量。

    一种基于聚类和对比学习的中文问句文本表示学习的方法

    公开(公告)号:CN115906835B

    公开(公告)日:2024-02-20

    申请号:CN202211480390.8

    申请日:2022-11-23

    Inventor: 王艺涵 李栓 许浩

    Abstract: 本发明公开一种基于聚类和对比学习的中文问句文本表示学习的方法,该方法先对中文问句语料进行清洗,然后进行聚类,将字面相似的样本划分在相同的子集中;按顺序选定子集并按批次抽取问句,将不同批次问句按顺序输入SimCLR对比学习框架中,并生成与每个问句对应的语义相似问句表示,之后使用对比损失函数拉近问句与语义相似问句之间的距离,并扩大该问句与同批次其他问句之间的距离,得到训练好的SimCLR对比学习模型;最后将新的中文问句语料也进行相同的清洗和聚类,并将聚类后的子集按批次输入训练好的SimCLR对比学习模型,得到分类后的中文问句语料,实现中文问句语料的自动打标。本发明有效提升了模型对问句文本之间差异的辨析性能。

    一种基于迁移学习的中医罕见病中药处方生成方法和系统

    公开(公告)号:CN115424696B

    公开(公告)日:2023-02-03

    申请号:CN202211374618.5

    申请日:2022-11-04

    Abstract: 本发明公开了一种基于迁移学习的中医罕见病中药处方生成方法和系统,包括以下步骤:步骤S1:得到中医知识学习模型;步骤S2:基于多头自注意力机制的LSTM模型生成对应的中药名序列;步骤S3:得到中药剂量生成模型;步骤S4:将所述中药名序列和所述特征数据集合并作为所述中药剂量生成模型的输入,依次生成每味中药推荐的剂量,最终生成完整的中药处方。本发明使用两段式迁移学习算法,以自建中医语料库为基础,训练中医领域的中医知识学习模型,使用中医临床罕见病例对中医知识学习模型进行修正。本方法模拟了中医医生的学习过程,其生成的中药处方也将更加契合患者的病情,充分利用了医生在临床诊疗过程中产生的经验性知识。

    一种基于大模型的科学文献字段抽取方法及系统

    公开(公告)号:CN119046444A

    公开(公告)日:2024-11-29

    申请号:CN202411533982.0

    申请日:2024-10-31

    Abstract: 本发明公开了一种基于大模型的科学文献字段抽取方法及系统,包括:将科学文献(document)切分成若干片段(chunks);迭代生成亟待抽取的字段的答案,并排除chunks中不包含亟待抽取的字段的片段;之后一边生成候选答案,一边通过差异对比的方式,排除不同chunk中的冗余答案信息,排除由于幻觉导致输出的错误答案信息,并在迭代过程中融合包含正确答案的chunk,解决了针对不同片段回答零散不易整合的问题;该方法和系统在有限计算资源的条件下,能够最大发挥生成大模型对科学文献的抽取性能。

    一种基于词权统计和预训练模型的文本分类方法及装置

    公开(公告)号:CN118535743B

    公开(公告)日:2024-11-05

    申请号:CN202411004264.4

    申请日:2024-07-25

    Abstract: 本发明公开了一种基于词权统计和预训练模型的文本分类方法及装置,主要包括以下步骤:获取文本语料并存储在文本数据库中;对文本语料进行数据清洗得到文本数据集;利用词频‑逆标签集频率算法生成词‑标签权重词典;利用词‑标签权重词典生成文本权重得分向量结合预处理后的文本经文本分类模型得到文本分类预测结果,对模型进行迭代训练;利用预训练后的文本分类模型对新输入文本进行分类。本发明将每个词相对于每个标签的重要程度作为先验知识,之后在文本分类模型中使用注意力机制将该先验知识融入预训练BERT模型输出的文本语义表示中,能够进一步提高文本分类的准确率和效率。

    一种适用于金融大模型的文本数据预处理方法及系统

    公开(公告)号:CN118211131B

    公开(公告)日:2024-07-30

    申请号:CN202410627083.0

    申请日:2024-05-21

    Abstract: 本发明公开了一种适用于金融大模型的文本数据预处理方法及系统,属于金融文本自然语言处理技术领域,包括:对金融数据集中的样本添加次数标签和时间标签,其中,时间标签为从样本中抽取的时间信息;将样本转换为文本向量,对文本向量进行小批量聚类,得到多个子集,计算子集中样本间的相似度,删除相似度高且时间标签小的数据;将样本切分为子串,遍历找到包含图片注释信息且长度小于阈值的子串并删除;遍历找到包含表格表达字段的子串并检测错误,结合提示工程和生成模型修复错误,得到高质量金融数据集。本发明通过将金融数据聚类后去重,极大程度上节省了计算开销和时间成本,通过处理图片注释并修复表格,得到高质量的金融数据集。

    一种面向公司资讯文本的事件抽取方法及系统

    公开(公告)号:CN116991983B

    公开(公告)日:2024-02-02

    申请号:CN202311259460.1

    申请日:2023-09-27

    Abstract: 本发明公开一种面向公司资讯文本的事件抽取方法及系统,该发明在面向公司资讯文本的事件抽取任务中,面对噪声公司名对模型性能干扰的难题,提出一种新的标注规则,将噪声公司名纳入实体识别的标注体系中,并设定噪声公司名对应的事件类别;将需要同时抽取公司名字段和判定公司名对应事件类型的噪音难题转换为简单的分类问题,极大地缓解了模型的压力,降低了任务的难度;并构建一种公司名及事件类型的两阶段抽取模型,提高了模型抽取公司名字段和判定公司名对应事件类别的精度。

    适用于少样本和有偏数据的金融文本事件抽取方法和装置

    公开(公告)号:CN116501898A

    公开(公告)日:2023-07-28

    申请号:CN202310781210.8

    申请日:2023-06-29

    Inventor: 李栓 那崇宁

    Abstract: 本发明公开了一种适用于少样本和有偏数据的金融文本事件抽取方法和装置,针对金融事件任务中事件类型较多,不同事件发生地频率也不相同,往往存在少样本和有偏的情况,从事件主体和事件类型两个层面上对样本较少数据进行增强,有效地缓解了有偏及少样本类型数据对模型提取结果的影响;针对描述文本中同一事件主体出现多次且对应多个事件类型的难题和描述文本中多个事件主体对应同一事件类型的难题,构建了包括基于事件主体预测和事件类型预测两级分布处理的抽取模型,该抽取模型经过增强后训练样本的训练,能够提高各情况金融文本事件的准确抽取。

    一种基于聚类和对比学习的中文问句文本表示学习的方法

    公开(公告)号:CN115906835A

    公开(公告)日:2023-04-04

    申请号:CN202211480390.8

    申请日:2022-11-23

    Inventor: 王艺涵 李栓 许浩

    Abstract: 本发明公开一种基于聚类和对比学习的中文问句文本表示学习的方法,该方法先对中文问句语料进行清洗,然后进行聚类,将字面相似的样本划分在相同的子集中;按顺序选定子集并按批次抽取问句,将不同批次问句按顺序输入SimCLR对比学习框架中,并生成与每个问句对应的语义相似问句表示,之后使用对比损失函数拉近问句与语义相似问句之间的距离,并扩大该问句与同批次其他问句之间的距离,得到训练好的SimCLR对比学习模型;最后将新的中文问句语料也进行相同的清洗和聚类,并将聚类后的子集按批次输入训练好的SimCLR对比学习模型,得到分类后的中文问句语料,实现中文问句语料的自动打标。本发明有效提升了模型对问句文本之间差异的辨析性能。

Patent Agency Ranking