一种基于内部知识提取与对比学习的小样本新闻分类方法

    公开(公告)号:CN117891948A

    公开(公告)日:2024-04-16

    申请号:CN202410020183.7

    申请日:2024-01-07

    Abstract: 本发明公开了一种基于内部知识提取与对比学习的小样本新闻分类方法,包括以下步骤:获取新闻文本数据集并进行预处理得到初始数据集的文本特征并人工标注分类。设计提示模板,使用Roberta模型作为底层模型;设计与分类标签相关性的核心词以覆盖更广阔的语义空间。从文本中选择词频较高且语义相似度与核心词较高的词语作为备选词。将备选词放入提示模板[MASK]位置拼接组合得到拓展词。将Roberta模型预测[MASK]位置的词语与拓展词进行映射对比,得到最后的分类结果。通过提示学习将文本数据改造以减少下游任务和预训练任务之间的差距;通过内部知识提取和提示语法修正,建立核心词的拓展词库,形成拓展词库到目标分类的映射关系;提高小样本文本分类模型微调的效率。

    一种基于词汇增强的司法命名实体识别方法

    公开(公告)号:CN117875326A

    公开(公告)日:2024-04-12

    申请号:CN202410052509.4

    申请日:2024-01-15

    Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于词汇增强的司法命名实体识别方法。该方法使用司法文书数据集,通过引入基于词汇增强的字词网格结构,实现字词的联合嵌入以及多特征嵌入,能够提取字符在句子中的语义特征,从而融合汉字的字词特征和语义信息,获得更多的信息,进而得到全局最优系列标签。解决了传统中文命名实体识别模型难以迁移到司法领域以及在文本中仅使用字符向量表达存在的局限性。相较于传统的方法,本发明实现字词的联合嵌入以及多特征嵌入,融合汉字的字词特征和语义信息,提高了司法实体识别的有效性和准确性。

    医疗健康对话中的实体识别方法、装置、设备及介质

    公开(公告)号:CN117709346A

    公开(公告)日:2024-03-15

    申请号:CN202311728849.6

    申请日:2023-12-14

    Inventor: 董哲 李响

    Abstract: 本发明公开了一种医疗健康对话中的实体识别方法、装置、设备及介质。该方法包括:将对话中用户的待识别问句输入生成式模型的编码器,得到所述待识别问句的目标向量矩阵;将所述目标向量矩阵和所述对话中的历史标准实体输入所述生成式模型的自回归解码器,得到所述待识别问句中各词的实体概率;根据所述各词的实体概率,确定所述待识别问句中的目标待对齐实体;基于所述待识别问句的前置信息从至少两个候选字典树中确定目标字典树,并在所述目标字典树中确定所述目标待对齐实体的目标标准实体。本发明实施例可以提高实体识别的效率和准确性。

    自然合理的多语言预训练模型生成语言约束方法

    公开(公告)号:CN117709307A

    公开(公告)日:2024-03-15

    申请号:CN202311716558.5

    申请日:2023-12-13

    Applicant: 清华大学

    Inventor: 唐杰 邹旭

    Abstract: 本发明提出一种自然合理的多语言预训练模型生成语言约束方法,包括,获取不同语言的单语言词表;将所述单语言词表与多语言预训练模型的内置词表相融合,得到融合词表集;获取提示文本与生成时所需的语言;调用所述融合词表集中所需的语言对应的融合词表进行生成,输出生成的结果。通过本发明提出的方法,既防止了生成结果中出现不自然的多语言夹杂情况,又能够保留合理借用的其他语言专有词汇,不干扰模型在正常情况下的生成结果,从而使多语言模型在限定回答使用的语言的情况下也能生成自然合理的文本。

    关键字检测装置、关键字检测方法以及存储介质

    公开(公告)号:CN117669553A

    公开(公告)日:2024-03-08

    申请号:CN202310165560.1

    申请日:2023-02-24

    Abstract: 本发明的实施方式涉及一种关键字检测装置、关键字检测方法以及存储介质。关键字检测装置(10)具备词组检测部(20B)、相似度计算部(20C)以及关键字输出部(20D)。词组检测部(20B)从作为以规定的输入方式表示的输入信息的识别结果的文本信息检测与关键字有关的词组。相似度计算部(20C)计算包含在关键字列表(32)中的多个关键字的各关键字与词组的相似度所对应的输出相似度,该关键字列表(32)是按多个关键字的每个关键字将关键字的关键字记述与以输入方式表示关键字的关键字方式信息相对应而成的。关键字输出部(20D)根据输出相似度输出关键字列表(32)中的关键字。

    一种基于BERT和GNN的航运邮件实体抽取方法

    公开(公告)号:CN117634492A

    公开(公告)日:2024-03-01

    申请号:CN202311683104.2

    申请日:2023-12-08

    Inventor: 张俊 张校郡 周新

    Abstract: 本发明提供一种基于BERT和GNN的航运邮件实体抽取方法,包括:获取大量航运邮件,进行预处理;构建扩展词汇表;合并原生词汇表和扩展词汇表,生成航运邮件词汇表;将航运邮件词汇表划分为训练集、验证集和测试集;利用Word2Vec模型生成扩展词模型和扩展词向量;利用BERT模型训练生成原生词向量,并将生成的原生词向量与扩展词向量合并,生成航运邮件词向量;对航运邮件一部分进行人工序列标注,利用BERT模型对另一部分邮件进行半自动序列标注;利用BERT的输出,作为GNN的输入;引入条件随机场层,更全面地捕捉标签之间的依赖关系。对训练好的模型进行评估和优化,提高准确度、召回率、F1‑score。

    基于智能语音的呼叫质检方法、装置、设备及存储介质

    公开(公告)号:CN108763499B

    公开(公告)日:2024-02-23

    申请号:CN201810537982.6

    申请日:2018-05-30

    Inventor: 张雨嘉

    Abstract: 本发明公开了一种基于智能语音的呼叫质检方法,属于呼叫系统技术领域。该方法包括以下步骤:从呼叫系统获取实时的语音数据,将所述语音数据转译为文本数据,所述语音数据包含有与坐席位置相对应的位置识别码,所述文本数据中继承有相应的位置识别码;对文本数据进行分析以提取关键词;将提取到的关键词与预设的敏感词汇库和/或风险逻辑库进行匹配并输出匹配结果;根据匹配结果判断所述文本数据是否合规,若不合规则获取不合规的文本数据中包含的位置识别码,向该位置识别码所对应的坐席发送所述匹配结果;形成不合规报告发送给相应的管理人员。本发明使得质检覆盖率可以达到100%。

    PDF目录识别方法及电子设备、计算机可读存储介质

    公开(公告)号:CN112632968B

    公开(公告)日:2024-02-13

    申请号:CN202011504629.1

    申请日:2020-12-18

    Inventor: 陈健洋

    Abstract: 本申请公开了一种PDF目录识别方法及电子设备、计算机可读存储介质,其中PDF目录识别方法包括:获取PDF文档的每个页面的原始文本段落集合;根据每一所述原始文本段落集合的数字队列,得到符合目录结构特征的当前文本段落集合;将所述当前文本段落集合转换成至少一个二值化矩阵;扫描每个所述二值化矩阵,得到扫描结果;根据所述扫描结果,确定当前页面为目标目录页面。根据本申请的PDF目录识别方法,能够提取PDF文件中可能包含目录信息的页面,准确识别出目录结构。

    一种基于图注意力网络的APT组织分类方法

    公开(公告)号:CN117540297A

    公开(公告)日:2024-02-09

    申请号:CN202311518699.6

    申请日:2023-11-15

    Abstract: 一种基于图注意力网络的APT组织分类方法,涉及网络攻防领域和深度学习领域,解决现有组织分类方法难以准确识别APT攻击所属于的APT组织问题,利用图注意力网络进行APT组织分类,可以更好的学习APT攻击实体关系表示,将多模态的实体属性、攻击上下文的关系属性特征嵌入到统一的低维特征空间中,标记真实的攻击组织实体,完成对APT组织的分类。本方法可以更好地捕捉攻击上下文之间的关系,自动学习节点之间的关系和权重;可以逐渐提取抽象特征,有助发现APT攻击多层次特征,提高APT组织分类的准确率。

Patent Agency Ranking