-
公开(公告)号:CN118551021B
公开(公告)日:2024-11-08
申请号:CN202411009247.X
申请日:2024-07-26
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/332 , G06F16/35 , G06F18/241 , G06F18/214 , G06F40/284
Abstract: 本发明涉及自然语言处理技术领域,特别是指一种基于依存图解析的一体化中文信息抽取方法及装置。方法包括:构建待处理文本的依存图;构建模型框架并训练模型框架,获得中文信息抽取模型;通过中文信息抽取模型获取待处理文本中文字之间的关系,获得待处理文本中字与字之间预测边的概率;提取字与字之间预测边的概率超过0.5的数据,输入至解码器中进行解码,并从相应的预测标签的分布中取到该字与字之间的标签,获得待处理文本的依存图,完成基于依存图解析的一体化中文信息抽取。本发明脱离特定的任务独立的运行并且有很好的性能,同时由于使用字粒度的方式进行建图来表示关系,能够对不同的数据集都采用一致的处理方式,得到统一的模型输入。
-
公开(公告)号:CN118551021A
公开(公告)日:2024-08-27
申请号:CN202411009247.X
申请日:2024-07-26
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/332 , G06F16/35 , G06F18/241 , G06F18/214 , G06F40/284
Abstract: 本发明涉及自然语言处理技术领域,特别是指一种基于依存图解析的一体化中文信息抽取方法及装置。方法包括:构建待处理文本的依存图;构建模型框架并训练模型框架,获得中文信息抽取模型;通过中文信息抽取模型获取待处理文本中文字之间的关系,获得待处理文本中字与字之间预测边的概率;提取字与字之间预测边的概率超过0.5的数据,输入至解码器中进行解码,并从相应的预测标签的分布中取到该字与字之间的标签,获得待处理文本的依存图,完成基于依存图解析的一体化中文信息抽取。本发明脱离特定的任务独立的运行并且有很好的性能,同时由于使用字粒度的方式进行建图来表示关系,能够对不同的数据集都采用一致的处理方式,得到统一的模型输入。
-
公开(公告)号:CN119296528A
公开(公告)日:2025-01-10
申请号:CN202411344318.1
申请日:2024-09-25
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明涉及自然语言处理技术领域,特别是指一种基于语音端到端的依存结构分析方法及装置。方法包括:对语音数据进基于语音特征提取器获取特征向量,将特征向量输入到语音解码器中得到语音嵌入向量表示;基于适配器将语音嵌入向量表示映射到文本空间;将映射后的数据通过双仿射解码器输出语音的依存结构分析结果;将转录文本进行标签对齐获得转录文本的对齐标签;通过对齐标签端到端的训练语音依存结构分析模型。本发明直接从语音入手,实现对语音特征的利用,使用对齐工具映射金标文本的标签信息到转录文本上,充分利用依存结构分析的数据训练语音依存结构分析模型。
-
公开(公告)号:CN118468899B
公开(公告)日:2024-09-24
申请号:CN202410933627.6
申请日:2024-07-12
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明涉及机器翻译领域,特别是指一种基于示例感知的机器翻译大语言模型的翻译方法及装置,方法包括:构造句子级感知示例以及文档级感知示例;根据句子级感知示例、文档级感知示例构造的示例感知训练数据,根据训练数据以及低秩适应LoRA微调技术,得到训练好的机器翻译大语言模型;构造领域翻译示例以及文档级翻译示例;根据领域翻译示例以及文档级翻译示例,对训练好的机器翻译大语言模型进行优化,得到构建好的示例感知能力提升的机器翻译大语言模型,进而得到翻译结果。本发明不仅能够为特定领域翻译和文档级翻译等特定需求提供定制化解决方案,还能够在不牺牲翻译质量的前提下,显著提高翻译效率和性能。
-
公开(公告)号:CN118468899A
公开(公告)日:2024-08-09
申请号:CN202410933627.6
申请日:2024-07-12
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明涉及机器翻译领域,特别是指一种基于示例感知的机器翻译大语言模型的翻译方法及装置,方法包括:构造句子级感知示例以及文档级感知示例;根据句子级感知示例、文档级感知示例构造的示例感知训练数据,根据训练数据以及低秩适应LoRA微调技术,得到训练好的机器翻译大语言模型;构造领域翻译示例以及文档级翻译示例;根据领域翻译示例以及文档级翻译示例,对训练好的机器翻译大语言模型进行优化,得到构建好的示例感知能力提升的机器翻译大语言模型,进而得到翻译结果。本发明不仅能够为特定领域翻译和文档级翻译等特定需求提供定制化解决方案,还能够在不牺牲翻译质量的前提下,显著提高翻译效率和性能。
-
-
-
-