重排序模型的处理方法、系统、设备、介质及程序产品

    公开(公告)号:CN119884504A

    公开(公告)日:2025-04-25

    申请号:CN202510034399.3

    申请日:2025-01-09

    Abstract: 本公开提供了一种重排序模型的处理方法、系统、设备、介质及程序产品,该重排序模型包括原始输出层、序列模型层、多个新增输出层,每个新增输出层包括多个分支结构,该方法包括:获取训练数据集,训练数据集包括高维特征数据集和低维特征数据集;冻结序列模型层和多个新增输出层,基于高维特征数据集和低维特征数据集训练原始输出层;冻结序列模型层和训练后的原始输出层,基于训练后的原始输出层训练新增输出层得到训练后的新增输出层。本公开的重排序模型包含多分支结构的,先基于高维特征数据集和低维特征数据集训练原始输出层,再基于训练后的原始输出层训练新增输出层,能够自动判断早停,大大提升了重排序模型的处理速度和准确性。

    一种语音识别错误纠正处理方法、系统、存储介质和程序产品

    公开(公告)号:CN119229872A

    公开(公告)日:2024-12-31

    申请号:CN202411260877.4

    申请日:2024-09-09

    Abstract: 本发明提供一种语音识别错误纠正处理方法、系统、存储介质和程序产品。其中方法包括以下步骤:获取原始语音数据;将原始语音数据转换成第一文本;基于第一文本预设专业术语提示;使用大语言模型对第一文本进行纠错处理,得到第二文本;使用大语言模型对第二文本进行正式化转换,得到最终文本。本发明能够提高专业术语识别准确性、转换口语化文本为正式化文本、降低人工校正的成本和时间,以及提升文本的专业性和可用性。总而言之,本发明能够显著提高ASR系统转换效率、处理专业名词和行业特定名词的准确性和文本正式化程度。

    文档处理方法及装置、存储介质、终端、计算机程序产品

    公开(公告)号:CN118313352B

    公开(公告)日:2025-02-11

    申请号:CN202410373087.0

    申请日:2024-03-28

    Abstract: 一种文档处理方法及装置、存储介质、终端、计算机程序产品,方法包括:确定待处理文档;对待处理文档的每个页面进行解析,以确定内容列表和目录列表,内容列表包含多条段落项,每条段落项包含单个段落,目录列表包含多条标题项,每条标题项包含单个标题;基于目录列表构建目录树;逐层遍历目录树,对遍历的当前节点指示的标题及其同层相邻节点指示的标题,分别与内容列表中的至少一部分段落进行文本匹配,以确定相匹配的两个段落,然后对内容列表中位于相匹配的两个段落之间的所有段落进行拼接,将拼接结果作为当前节点的关联文本块。采用上述方案,可以对文档精准划分文本块并与各标题建立关联关系,以获得树形结构文档。

    文本转结构化查询语言的语句生成方法、系统、设备

    公开(公告)号:CN118820285A

    公开(公告)日:2024-10-22

    申请号:CN202410835072.1

    申请日:2024-06-26

    Abstract: 本公开提供了一种文本转结构化查询语言的语句生成方法、系统、设备,该语句生成方法包括:基于目标查询问题,确定目标查询语句中的数据关键词;基于目标查询问题,得到初始查询语句;基于初始查询语句和数据关键词,生成目标查询语句。本公开根据目标查询问题确定目标查询语句中的数据关键词,数据关键词包括与目标查询问题对应的表名、字段名和字段值中的至少一种;根据目标查询问题得到初始查询语句,初始查询语句为带有占位符和语法结构关键词的查询语句,占位符用于代替所述数据关键词;进而根据初始查询语句和数据关键词,生成目标查询语句,克服了通过模型生成相关列名时容易发生错误的问题,提升了生成的目标查询语句的准确率。

    文档处理方法及装置、存储介质、终端、计算机程序产品

    公开(公告)号:CN118313352A

    公开(公告)日:2024-07-09

    申请号:CN202410373087.0

    申请日:2024-03-28

    Abstract: 一种文档处理方法及装置、存储介质、终端、计算机程序产品,方法包括:确定待处理文档;对待处理文档的每个页面进行解析,以确定内容列表和目录列表,内容列表包含多条段落项,每条段落项包含单个段落,目录列表包含多条标题项,每条标题项包含单个标题;基于目录列表构建目录树;逐层遍历目录树,对遍历的当前节点指示的标题及其同层相邻节点指示的标题,分别与内容列表中的至少一部分段落进行文本匹配,以确定相匹配的两个段落,然后对内容列表中位于相匹配的两个段落之间的所有段落进行拼接,将拼接结果作为当前节点的关联文本块。采用上述方案,可以对文档精准划分文本块并与各标题建立关联关系,以获得树形结构文档。

    短文本分类方法及装置、存储介质、计算设备

    公开(公告)号:CN118277846A

    公开(公告)日:2024-07-02

    申请号:CN202410205775.6

    申请日:2024-02-23

    Abstract: 本申请提供了一种短文本分类方法及装置、存储介质、计算设备,该短文本分类方法包括:获取待分类短文本以及体系化标签;计算待分类短文本与体系化标签中各个标签的语义相似度,并根据语义相似度获得与待分类短文本语义最接近的顶层标签候选集以及分类标签候选集;根据顶层标签候选集构建针对顶层标签的第一提示词,并将待分类短文本、第一提示词以及顶层标签候选集输入至大语言模型;根据分类标签候选集以及顶层标签分类结果构建针对分类标签的第二提示词,并将待分类短文本、第二提示词以及分类标签候选集输入至大语言模型,以输出分类结果。本申请提供了一种提升短文本分类准确性的方案。

    多选项问答方法及装置、计算机可读存储介质、终端

    公开(公告)号:CN118051588A

    公开(公告)日:2024-05-17

    申请号:CN202410176197.8

    申请日:2024-02-07

    Abstract: 一种多选项问答方法及装置、计算机可读存储介质、终端,方法包括:确定多个知识库和第一拼接文本,第一拼接文本是对问题与其全部候选项拼接得到;对每个知识库,通过向量相似度匹配筛选出与第一拼接文本相似度排序靠前的多个匹配句子,并拼接得到该知识库对应的第二拼接文本;对问题与该知识库对应的第二拼接文本进行拼接,得到第三拼接文本,并基于第三拼接文本以及各个候选项预测得到每个候选项相对于该知识库的正确概率值;采用各个知识库的置信度作为权重,将每个候选项相对于各个知识库的正确概率值进行加权运算,得到该候选项的加权概率值;将加权概率值最大的候选项,作为问题的答案。上述方案可以提高多选项问答的准确度和可信度。

Patent Agency Ranking