-
公开(公告)号:CN119962673A
公开(公告)日:2025-05-09
申请号:CN202510019761.X
申请日:2025-01-06
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06N5/04 , G06F40/211 , G06F40/30
Abstract: 本发明提供一种大纲生成模型设计方法、装置、存储介质和程序产品,涉及文本理解和处理技术领域。其中,长文本大纲生成模型设计方法包括:通过困惑度分析模块得到困惑度评分;通过语义分段模块得到语义相似度、句法结构信息;根据所述困惑度评分、语义相似度、句法结构信息生成综合评分;通过逻辑边界检测模块进行初步段落切分;根据综合评分对初步段落切分进行优化;使用大语言模型生成多级大纲。本发明方法相对于现有技术更为高效精准,集成化程度更高,可解释性更强,并可在多个应用领域进行推广。
-
公开(公告)号:CN119884504A
公开(公告)日:2025-04-25
申请号:CN202510034399.3
申请日:2025-01-09
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F16/9536 , G06F18/213 , G06F18/214 , G06N3/0464
Abstract: 本公开提供了一种重排序模型的处理方法、系统、设备、介质及程序产品,该重排序模型包括原始输出层、序列模型层、多个新增输出层,每个新增输出层包括多个分支结构,该方法包括:获取训练数据集,训练数据集包括高维特征数据集和低维特征数据集;冻结序列模型层和多个新增输出层,基于高维特征数据集和低维特征数据集训练原始输出层;冻结序列模型层和训练后的原始输出层,基于训练后的原始输出层训练新增输出层得到训练后的新增输出层。本公开的重排序模型包含多分支结构的,先基于高维特征数据集和低维特征数据集训练原始输出层,再基于训练后的原始输出层训练新增输出层,能够自动判断早停,大大提升了重排序模型的处理速度和准确性。
-
公开(公告)号:CN119229872A
公开(公告)日:2024-12-31
申请号:CN202411260877.4
申请日:2024-09-09
Applicant: 华院计算技术(上海)股份有限公司
IPC: G10L15/26 , G06F40/232 , G06F40/103
Abstract: 本发明提供一种语音识别错误纠正处理方法、系统、存储介质和程序产品。其中方法包括以下步骤:获取原始语音数据;将原始语音数据转换成第一文本;基于第一文本预设专业术语提示;使用大语言模型对第一文本进行纠错处理,得到第二文本;使用大语言模型对第二文本进行正式化转换,得到最终文本。本发明能够提高专业术语识别准确性、转换口语化文本为正式化文本、降低人工校正的成本和时间,以及提升文本的专业性和可用性。总而言之,本发明能够显著提高ASR系统转换效率、处理专业名词和行业特定名词的准确性和文本正式化程度。
-
公开(公告)号:CN116881398A
公开(公告)日:2023-10-13
申请号:CN202310818447.9
申请日:2023-07-04
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F16/33 , G06F16/338 , G06F16/31
Abstract: 本发明公开一种提升大模型生成信息质量的方法及装置,该方法包括:接收用户输入信息;利用知识库确定所述用户输入信息的辅助信息;根据所述用户输入信息和所述辅助信息,生成基于大模型的反馈信息。利用本发明方案,可以提升大型预训练模型生成信息的时效性和准确性。
-
公开(公告)号:CN119990122A
公开(公告)日:2025-05-13
申请号:CN202510082046.0
申请日:2025-01-17
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F40/284 , G06F40/30 , G06F16/951 , G06F16/335 , G06F16/31 , G06N20/00
Abstract: 本发明涉及人工智能技术领域,具体为一种基于AIGC的评论生成信息处理方法,该方法通过多任务学习与生成模型的结合,系统能够根据用户需求生成多条评论,并灵活调整评论数量、长度、情感倾向和主题方向。同时,系统能够实时抓取互联网信息,对生成的评论进行动态改写,确保评论的时效性、相关性和准确性。敏感词过滤模块确保生成的评论符合平台的法律法规要求,避免不当内容的生成。通过可迭代反馈机制,系统能够不断优化评论生成质量,提升用户体验,提升各类平台的评论生成效率与质量,满足不断变化的市场需求和用户期望。
-
公开(公告)号:CN118313352B
公开(公告)日:2025-02-11
申请号:CN202410373087.0
申请日:2024-03-28
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F40/14 , G06F40/166
Abstract: 一种文档处理方法及装置、存储介质、终端、计算机程序产品,方法包括:确定待处理文档;对待处理文档的每个页面进行解析,以确定内容列表和目录列表,内容列表包含多条段落项,每条段落项包含单个段落,目录列表包含多条标题项,每条标题项包含单个标题;基于目录列表构建目录树;逐层遍历目录树,对遍历的当前节点指示的标题及其同层相邻节点指示的标题,分别与内容列表中的至少一部分段落进行文本匹配,以确定相匹配的两个段落,然后对内容列表中位于相匹配的两个段落之间的所有段落进行拼接,将拼接结果作为当前节点的关联文本块。采用上述方案,可以对文档精准划分文本块并与各标题建立关联关系,以获得树形结构文档。
-
公开(公告)号:CN118820285A
公开(公告)日:2024-10-22
申请号:CN202410835072.1
申请日:2024-06-26
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F16/2452 , G06F16/2453
Abstract: 本公开提供了一种文本转结构化查询语言的语句生成方法、系统、设备,该语句生成方法包括:基于目标查询问题,确定目标查询语句中的数据关键词;基于目标查询问题,得到初始查询语句;基于初始查询语句和数据关键词,生成目标查询语句。本公开根据目标查询问题确定目标查询语句中的数据关键词,数据关键词包括与目标查询问题对应的表名、字段名和字段值中的至少一种;根据目标查询问题得到初始查询语句,初始查询语句为带有占位符和语法结构关键词的查询语句,占位符用于代替所述数据关键词;进而根据初始查询语句和数据关键词,生成目标查询语句,克服了通过模型生成相关列名时容易发生错误的问题,提升了生成的目标查询语句的准确率。
-
公开(公告)号:CN118313352A
公开(公告)日:2024-07-09
申请号:CN202410373087.0
申请日:2024-03-28
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F40/14 , G06F40/166
Abstract: 一种文档处理方法及装置、存储介质、终端、计算机程序产品,方法包括:确定待处理文档;对待处理文档的每个页面进行解析,以确定内容列表和目录列表,内容列表包含多条段落项,每条段落项包含单个段落,目录列表包含多条标题项,每条标题项包含单个标题;基于目录列表构建目录树;逐层遍历目录树,对遍历的当前节点指示的标题及其同层相邻节点指示的标题,分别与内容列表中的至少一部分段落进行文本匹配,以确定相匹配的两个段落,然后对内容列表中位于相匹配的两个段落之间的所有段落进行拼接,将拼接结果作为当前节点的关联文本块。采用上述方案,可以对文档精准划分文本块并与各标题建立关联关系,以获得树形结构文档。
-
公开(公告)号:CN118277846A
公开(公告)日:2024-07-02
申请号:CN202410205775.6
申请日:2024-02-23
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F18/241 , G06F18/22 , G06N5/04 , G06F16/35
Abstract: 本申请提供了一种短文本分类方法及装置、存储介质、计算设备,该短文本分类方法包括:获取待分类短文本以及体系化标签;计算待分类短文本与体系化标签中各个标签的语义相似度,并根据语义相似度获得与待分类短文本语义最接近的顶层标签候选集以及分类标签候选集;根据顶层标签候选集构建针对顶层标签的第一提示词,并将待分类短文本、第一提示词以及顶层标签候选集输入至大语言模型;根据分类标签候选集以及顶层标签分类结果构建针对分类标签的第二提示词,并将待分类短文本、第二提示词以及分类标签候选集输入至大语言模型,以输出分类结果。本申请提供了一种提升短文本分类准确性的方案。
-
公开(公告)号:CN118051588A
公开(公告)日:2024-05-17
申请号:CN202410176197.8
申请日:2024-02-07
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F16/332 , G06F16/35 , G06F40/30 , G06F18/22
Abstract: 一种多选项问答方法及装置、计算机可读存储介质、终端,方法包括:确定多个知识库和第一拼接文本,第一拼接文本是对问题与其全部候选项拼接得到;对每个知识库,通过向量相似度匹配筛选出与第一拼接文本相似度排序靠前的多个匹配句子,并拼接得到该知识库对应的第二拼接文本;对问题与该知识库对应的第二拼接文本进行拼接,得到第三拼接文本,并基于第三拼接文本以及各个候选项预测得到每个候选项相对于该知识库的正确概率值;采用各个知识库的置信度作为权重,将每个候选项相对于各个知识库的正确概率值进行加权运算,得到该候选项的加权概率值;将加权概率值最大的候选项,作为问题的答案。上述方案可以提高多选项问答的准确度和可信度。
-
-
-
-
-
-
-
-
-