词向量处理方法及装置、存储介质及电子设备

    公开(公告)号:CN116562232A

    公开(公告)日:2023-08-08

    申请号:CN202310532544.1

    申请日:2023-05-11

    Abstract: 本公开提供一种词向量处理方法、装置、存储介质及电子设备,涉及自然语言处理技术领域。词向量处理方法包括:获取目标文本中待处理词和待处理词的上下文信息;初始化词向量编码模型的输入层到隐藏层的第一权重矩阵,词向量编码模型用于生成待处理词的词向量;根据第一权重矩阵、待处理词的上下文信息和上下文信息中每个词对应的字相关性参数,确定词向量编码模型中隐藏层向量;字相关性参数表征一个词中多个字向量之间的相关性;根据隐藏层向量,对第一权重矩阵进行调整,得到调整后的第一权重矩阵;根据调整第一权重矩阵后的词向量编码模型,生成待处理词的词向量。本公开考虑了组成词的多个字之间的紧密联系程度,生成的词向量更为准确。

    一种模型训练数据处理方法、装置与电子设备

    公开(公告)号:CN119398046A

    公开(公告)日:2025-02-07

    申请号:CN202411496911.8

    申请日:2024-10-24

    Inventor: 刘康 杨明川

    Abstract: 本公开提供一种模型训练数据处理方法、装置与电子设备。模型训练数据处理方法包括:对模型训练数据中的训练文本进行分词预处理以形成第一分词列表,对所述第一分词列表进行词汇去重后得到第二分词列表,所述第二分词列表包括多个不重复的待处理词汇;根据所述第一分词列表对应的词向量矩阵形成所述训练文本的文本向量矩阵;确定所述待处理词汇的词向量与所述文本向量矩阵的相似度,将所述相似度最大的K个所述待处理词汇确定为所述训练文本的K个主题词,K≥1;在所述模型训练数据中将所述K个主题词相同的训练文本分为一组,在同组内对所述文本向量矩阵的相似度大于预设阈值的训练文本进行去重。本公开实施例可以提高模型训练效率。

    一种模型训练数据处理方法、装置与电子设备

    公开(公告)号:CN118378723B

    公开(公告)日:2024-09-13

    申请号:CN202410813561.7

    申请日:2024-06-21

    Abstract: 本公开提供一种模型训练数据处理方法、装置与电子设备,涉及数据处理技术领域。模型训练数据处理方法包括:获取包括多个训练文本的待处理模型训练数据,对每个所述训练文本进行分词预处理,以得到与每个训练文本对应的词汇集合;根据所述词汇集合提取每个所述训练文本的K个关键词,根据所述K个关键词将所述多个训练文本分为多组,K≥1;生成每个所述词汇集合内每个词汇的词向量;对每个训练文本,根据一个所述词汇与所述关键词的距离确定该词汇的权值,根据所述训练文本对应的多个词汇的词向量以及所述权值确定所述训练文本的文本向量;在同组内对所述文本向量的相似度大于预设阈值的训练文本进行去重。本公开实施例可以提高模型训练效率。

    表格内容查询分析方法、系统和电子设备

    公开(公告)号:CN119884147A

    公开(公告)日:2025-04-25

    申请号:CN202411945262.5

    申请日:2024-12-26

    Inventor: 姜林 刘康

    Abstract: 本申请提出一种表格内容查询分析方法、系统和电子设备,属于数据处理技术领域。该方法先构建表格数据集,再将表格数据集中的各个表格转换为键值对列表的形式,并将每个表格对应的键值对列表作为一段知识切片存入知识库,来构建得到表格知识库。通过将表格数据结构转换为键值对列表的形式来构建知识库,能够较好的保留表格本身结构与内容信息,从而提高表格检索阶段的准确率。接着,通过预先训练好的应答单元格预测模型来筛选与查询问题相关的单元格,再根据查询问题和单元格构造得到提示内容输入大模型处理,不需要输入冗长的表格,可提高大模型的分析效率和准确率,且能够避免超长表格输入大模型而被截断的情况。

    一种模型训练数据处理方法、装置与电子设备

    公开(公告)号:CN118378723A

    公开(公告)日:2024-07-23

    申请号:CN202410813561.7

    申请日:2024-06-21

    Abstract: 本公开提供一种模型训练数据处理方法、装置与电子设备,涉及数据处理技术领域。模型训练数据处理方法包括:获取包括多个训练文本的待处理模型训练数据,对每个所述训练文本进行分词预处理,以得到与每个训练文本对应的词汇集合;根据所述词汇集合提取每个所述训练文本的K个关键词,根据所述K个关键词将所述多个训练文本分为多组,K≥1;生成每个所述词汇集合内每个词汇的词向量;对每个训练文本,根据一个所述词汇与所述关键词的距离确定该词汇的权值,根据所述训练文本对应的多个词汇的词向量以及所述权值确定所述训练文本的文本向量;在同组内对所述文本向量的相似度大于预设阈值的训练文本进行去重。本公开实施例可以提高模型训练效率。

    大语言模型系统的评估方法、装置及相关设备

    公开(公告)号:CN119179631A

    公开(公告)日:2024-12-24

    申请号:CN202411244607.4

    申请日:2024-09-05

    Abstract: 本公开提供了一种大语言模型系统的评估方法、装置及相关设备,涉及计算机技术领域。该方法包括:生成多组问答对,每组问答对包括:评估问题和标准答案;将每组问答对的评估问题输入至待评估的大语言模型问答系统中,获取大语言模型问答系统输出的问题答案;基于预先构建的量化评估模型,根据多组问答对的评估问题和标准答案,对大语言模型问答系统输出的问题答案进行评估。本公开利用预先构建的量化评估模型,根据标准答案对模型输出的答案进行评分,解决了传统评估方法中主观性和不一致性的问题,提高了评估的效率,自动化处理大量数据,节省了人力和时间成本。增强了评估的客观性,减少了人为误差,确保了评估结果的可靠性。

Patent Agency Ranking