-
公开(公告)号:CN115796144A
公开(公告)日:2023-03-14
申请号:CN202310069803.1
申请日:2023-02-07
Applicant: 中国科学技术大学
IPC: G06F40/186 , G06F40/103 , G06F40/284
Abstract: 本发明涉及自然语言处理技术领域,公开了一种基于固定格式的受控文本生成方法,包括获取格式特征,映射格式向量,将格式向量组成格式矩阵,对格式矩阵编码得到关键字隐向量矩阵,预测的每个位置的关键字,映射关键字向量,组成关键字矩阵,得到输入隐向量矩阵,得到文本输出隐向量矩阵,预测备选文本,得到最终的生成文本;本发明能够依据生成文本的固定格式需求,使用非自回归模型同时生成文本中所有的字,提升了模型生成文本的效率。此外,本发明通过生成作为中间结果的关键字,进一步提升了模型生成文本的质量。
-
公开(公告)号:CN115640063A
公开(公告)日:2023-01-24
申请号:CN202211095171.8
申请日:2022-09-05
Applicant: 中国科学技术大学
IPC: G06F9/445 , G06F9/4401
Abstract: 本发明提供一种云主机批量启动方法、装置、设备及存储介质,客户端响应于云主机批量启动请求,从第一存储装置获取读请求处理结果,从第二存储装置获取写请求处理结果,第一存储装置的数据处理速度高于第二存储装置的数据处理速度;客户端基于读请求处理结果以及写请求处理结果,批量启动云主机。可见,上述方法通过高处理性能的存储装置进行读请求的处理,不再通过低处理性能的存储装置处理全部的读请求和写请求,提高云主机批量启动过程中读写请求的处理效率,从而降低云主机批量启动所消耗的时间。
-
公开(公告)号:CN115618022A
公开(公告)日:2023-01-17
申请号:CN202211630125.3
申请日:2022-12-19
Applicant: 中国科学技术大学
IPC: G06F16/36 , G06F18/214
Abstract: 本发明涉及数据合成领域,公开了一种基于数据合成和两阶段自训练的低资源关系抽取方法,包括数据合成方法和两阶段自训练框架,数据合成有效缓解了当前关系抽取任务中标注数据少,标注成本大的问题。两阶段自训练框架在每轮迭代中依次使用无标注生成数据和有标注数据训练模型,一方面可以促进模型从无标注生成数据和有标注数据中协同学习,另一方面也有效降低了生成数据噪音的影响。本发明贴合真实场景中的低资源情况,能够更有效地利用现有的预训练语言模型。
-
公开(公告)号:CN115600581A
公开(公告)日:2023-01-13
申请号:CN202211593665.9
申请日:2022-12-13
Applicant: 中国科学技术大学(CN)
IPC: G06F40/211 , G06F40/268 , G06F40/284 , G06N3/04
Abstract: 本发明涉及受控场景的文本生成领域,公开了一种使用句法信息的受控文本生成方法,用于通过给定的输入文本,以及时刻t已输出文本,预测受控条件下当前时刻t的下一个输出字;本发明采用了标准的基于Transformer的编码‑解码架构,对输入中的每个字,通过注意力模块,利用与其关联的句法知识的表征,从而增强模型对文本生成过程中的受控特征的理解,从而提升生成的受控文本的质量。
-
公开(公告)号:CN115587600A
公开(公告)日:2023-01-10
申请号:CN202211226252.7
申请日:2022-10-09
Applicant: 中国科学技术大学
IPC: G06F40/58 , G06F40/268 , G06F40/211 , G06F16/33 , G06N3/04 , G06N3/08
Abstract: 本申请公开了一种口语翻译方法、系统及电子设备,本方案在获得口语化语言数据后,将规整后的口语化语言数据输入至融入掩码信息及流畅度信息的机器翻译模型中,以得到翻译后的译文,通过机器翻译模型中的掩码信息,能够使得在对机器翻译模型进行训练时加入掩码信息,以增强对输入至机器翻译模型的单语数据中缺失词语的预测能力,从而提高容错性;同时,在机器翻译模型中加入流畅度信息,能够优化机器翻译模型的输出,以提高模型输出的译文的流畅性,从而改善错译、直译、漏译等现象。
-
公开(公告)号:CN115460230A
公开(公告)日:2022-12-09
申请号:CN202211084130.9
申请日:2022-09-06
Applicant: 中国科学技术大学
IPC: H04L67/1097 , H04L67/563 , H04L67/63
Abstract: 本申请实施例公开了一种数据迁移方法及统一协调系统,该数据迁移方法中,建立哈希桶作为理论存储位置,以及存储实际桶作为实际存储位置,通过配置哈希桶和存储实际桶的映射关系,以及存储实际桶和集群的映射关系,在数据迁移时,只需确定目标哈希桶中第一待迁移数据,不需要针对每个数据都通过哈希算法计算,而且直接通过上述两个映射关系能够实现第一待迁移数据的跨集群迁移,实现了跨集群的高效数据迁移。
-
公开(公告)号:CN113221885B
公开(公告)日:2022-09-06
申请号:CN202110523430.1
申请日:2021-05-13
Applicant: 中国科学技术大学
Abstract: 本发明涉及一种基于整字和偏旁部首的层次化建模方法及系统,其方法包括:S1:将文本行图像经过卷积神经网络和循环神经网络,得到文本行图像的序列特征;S2:将文本行图像的序列特征,输入有注意力机制的整字解码模块,得到整字的上下文特征向量以及整字的解码结果;S3:将整字的上下文特征向量输入偏旁部首解码模块,得到整字层级下的各个偏旁部首的解码结果;S4:利用置信度得分融合策略,将整字和各偏旁部首的解码置信度进行融合,得到整字的识别结果。本发明提供的方法,不仅能实现整字的识别,同时实现该时刻偏旁部首的识别,通过整字和偏旁部首解码置信度融合的策略,不仅能够提升低频字的识别效果,同时最大化地保证了非低频字识别的效果。
-
公开(公告)号:CN113114510B
公开(公告)日:2022-07-15
申请号:CN202110436220.9
申请日:2021-04-22
Applicant: 中国科学技术大学
IPC: H04L41/06 , H04L41/0631 , H04L49/55 , H04L67/10
Abstract: 本发明公开了一种网络故障信息的同步方法及装置,获取网络设备故障信息;基于所述网络设备故障信息,确定目标接口;根据所述目标接口,在目标关联关系表中检索得到与所述目标接口对应的接口描述信息,所述目标关联关系表为能够进行动态更新的网络设备物理接口以及与所述接口连接的终端信息的关系表;基于所述接口描述信息,将所述网络设备故障信息以目标方式进行输出。本发明基于目标关联关系表来实现当某台设备故障或者物理接口故障后,能够基于接口描述信息将设备故障信息进行输出至对应的人员,实现了准确携带故障接口对应的终端信息,提升了运维效率和准确性。
-
公开(公告)号:CN117610562B
公开(公告)日:2024-07-05
申请号:CN202410090092.0
申请日:2024-01-23
Applicant: 中国科学技术大学
IPC: G06F40/289 , G06F40/211 , G06F18/2415
Abstract: 本发明涉及关系抽取技术领域,公开了一种结合组合范畴语法和多任务学习的关系抽取方法,在给定文本以及两个实体的条件下,识别出关系标签;包括:利用编码器提取文本的文本特征:对文本特征进行词汇范畴标签解码,预测得到词汇范畴标签;对实体和处理后的文本特征应用注意力机制,得到强化实体表示;将强化实体表示输入到分类器,得到关系标签。本发明利用组合范畴语法为文本理解提供句法和语义知识,提升了对实体之间的关系检测能力;通过多任务学习的机制,从词汇范畴标签的解码过程中学习组合范畴语法信息,从而指导注意力机制区分关系抽取中的重要词汇,强化对文本和实体的表示学习,进一步提升了关系抽取的质量。
-
公开(公告)号:CN117542538A
公开(公告)日:2024-02-09
申请号:CN202410036713.7
申请日:2024-01-10
Applicant: 中国科学技术大学
Inventor: 宋彦
Abstract: 本发明公开了一种基于强化学习的医疗多模态内容分析及生成方法,将给定图像输送到目标检测模型中,生成与给定图像相匹配的文本报告;目标检测模型的训练过程如下:S1:构建训练集,将训练集中图像输送到目标检测模型中;S2:提取图像的视觉特征,同时获取目标检测模型中已生成文本的文本特征;S3:对视觉特征和文本特征进行建模,得到视觉特征的记忆对应向量组以及文本特征的记忆对应向量组;S4:对视觉特征的记忆对应向量组进行编码,得到输出矩阵;S5:对输出矩阵和文本特征的记忆对应向量组进行解码,输出当前时间步的预测文本;该医疗多模态内容分析及生成方法有利于放射学影像报告的生成。
-
-
-
-
-
-
-
-
-