一种基于数据增强及图匹配网络的文本匹配方法

    公开(公告)号:CN115510841A

    公开(公告)日:2022-12-23

    申请号:CN202211131717.0

    申请日:2022-09-16

    申请人: 武汉大学

    摘要: 本发明公开了一种基于数据增强及图匹配网络的文本匹配方法,引入依存句法分析,建立文本语义单元之间的依赖关系。利用自注意力机制,使模型聚焦于核心语义单元。通过图匹配网络,在两段文本任意词之间建立连接,通过注意力机制进行充分的交互,更好地把握语义焦点,学习文本之间的相似性。从字词、句子粒度实现问句匹配数据集的数据增强。设计实体替换算法、同义词替换及随机插入算法、字词噪声增强算法以及回译算法提高了数据集的多样性,解决了语料不足等问题。本发明将依存句法分析与图匹配网络相结合,在问句文本数据集上超越了当前的多个基线模型,提出的面向问句匹配的数据增强算法能够有效提高模型在问句匹配任务上的鲁棒性以及匹配效果。

    一种文本信息自动提取方法
    2.
    发明公开

    公开(公告)号:CN112597353A

    公开(公告)日:2021-04-02

    申请号:CN202011507003.6

    申请日:2020-12-18

    申请人: 武汉大学

    摘要: 本发明公开了一种文本信息自动提取方法,现有招标文件标的物的参数信息提取均靠人工抽取,需要花费大量人工及时间,耗时耗力。本发明使用自然语言处理技术对招标文本进行自动化的参数信息抽取,设计了标书文本结构化,标的物参数信息提取,提取报告体系,标书文本结构化包括利用利用pypdf2提取书签信息,利用pdfplumber识别pdf标书文本,利用正则对文本进行清洗,随后利用规则匹配对文本进行结构化分析处理。标的物参数信息提取通过利用正则技术对结构化后的标书文本中标的物的技术参数信息进行精准识别和提取。最后利用前述过程中的信息建立抽取报告,直观反映整个抽取情况。

    一种自动细粒度的两级并行翻译方法

    公开(公告)号:CN114398039A

    公开(公告)日:2022-04-26

    申请号:CN202111464906.5

    申请日:2021-12-03

    申请人: 武汉大学

    IPC分类号: G06F8/41 G06F9/50

    摘要: 本发明提供了一种自动细粒度的两级并行翻译方法,首先通过ANTLR解析源C代码,自动生成EBNF语法描述,并生成相应的词法和语法分析器。然后分析从解析器中提取的循环信息,如果找到流依赖关系,则包含这些依赖关系的循环语句不可并行化。如果找到数据之间的反依赖关系和输出依赖关系,进行依赖关系的消除。如果没有数据依赖关系,则这种循环语句是可并行化的。再将可并行化的循环结构映射到适合CUDA和CPU多线程执行的结构,然后生成相应的CUDA代码和CPU多线程代码,本发明可以节约计算资源,提高计算效率。

    一种自动细粒度的两级并行翻译方法

    公开(公告)号:CN114398039B

    公开(公告)日:2024-07-30

    申请号:CN202111464906.5

    申请日:2021-12-03

    申请人: 武汉大学

    IPC分类号: G06F8/41 G06F9/50

    摘要: 本发明提供了一种自动细粒度的两级并行翻译方法,首先通过ANTLR解析源C代码,自动生成EBNF语法描述,并生成相应的词法和语法分析器。然后分析从解析器中提取的循环信息,如果找到流依赖关系,则包含这些依赖关系的循环语句不可并行化。如果找到数据之间的反依赖关系和输出依赖关系,进行依赖关系的消除。如果没有数据依赖关系,则这种循环语句是可并行化的。再将可并行化的循环结构映射到适合CUDA和CPU多线程执行的结构,然后生成相应的CUDA代码和CPU多线程代码,本发明可以节约计算资源,提高计算效率。

    面向海洋模式算子的自适应的负载均衡方法及设备

    公开(公告)号:CN115525430A

    公开(公告)日:2022-12-27

    申请号:CN202211207811.X

    申请日:2022-09-30

    申请人: 武汉大学

    IPC分类号: G06F9/50

    摘要: 本发明提供了一种面向海洋模式算子的自适应的负载均衡方法及设备。所述方法包括:构建细粒度模型,实现异构集群上的细粒度并行;使用方差作为衡量集群负载的均衡情况的指标;采用最佳任务分配算法使集群自适应达到负载均衡状态。本发明面向海洋模式算子,在CPU和GPU上运行算子任务,将算子任务划分到CPU多线程和GPU两种结构,充分采用异构集群上CPU和GPU的计算资源;使用任务在集群的运行时长的方差,来评判集群的负载状态;计算集群的每个节点上以及节点内的CPU和GPU上分配的任务数目,使集群的运行时长的方差最小。

    跨GPU缓冲区的分级通信系统及设备

    公开(公告)号:CN115658336A

    公开(公告)日:2023-01-31

    申请号:CN202211192069.X

    申请日:2022-09-28

    申请人: 武汉大学

    IPC分类号: G06F9/54 G06F15/173

    摘要: 本发明提供了一种跨GPU缓冲区的分级通信系统及设备。所述系统包括:将集群分为两级结构,一级结构作为节点的服务器CPU,二级结构作为CPU下连接的GPU。本发明采用MPICH的分层集合通信框架进行节点间的通信,对于节点内部的GPU通信则采用NCCL实现多节点的配置,基于NCCL的nccl_broadcast函数设计一个MPI中的广播算法,增强不同MPI_Bcast的性能表现,通过先执行GPU间的广播,从节点内NCCL阶段的GPU缓冲区直接发出节点间的广播集体操作来实现高效的通信。

    一种面向问句匹配任务的数据增强方法

    公开(公告)号:CN115510863A

    公开(公告)日:2022-12-23

    申请号:CN202211126504.9

    申请日:2022-09-16

    申请人: 武汉大学

    摘要: 本发明公开了一种面向问句匹配任务的数据增强方法,本发明从字词、句两种角度实现数据增强,具体而言,为了应对问句文本中常出现的同义词混淆、实体混淆问题,从字词粒度出发,实现了基于命名实体识别的实体替换增强算法与利用预训练模型强大的语义表达能力实现的基于掩码语言模型的同义词替换及随机插入算法,扩充了样本空间;提出了字词粒度噪声增强算法,通过添加噪声,提高了模型的学习能力;从句子粒度,实现了基于回译方法的数据增强,利用文本生成的思想,提高了样本的多样性。通过在BUSTM数据集上进行对比实验与消融实验,验证了本文提出数据增强方法的有效性与先进性。

    一种针对CPU-GPU两级并行计算的自动负载均衡方法

    公开(公告)号:CN114398167B

    公开(公告)日:2024-09-20

    申请号:CN202111464876.8

    申请日:2021-12-03

    申请人: 武汉大学

    IPC分类号: G06F9/50

    摘要: 本发明提供了一种针对CPU‑GPU两级并行计算的自动负载均衡方法,首先获取CPU核数;并根据CPU核数获取在CPU中创建的线程数;然后获取并行计算的总任务数与多线程校正参数,并计算单个任务分别在CPU和GPU上执行所需的时间;最后在总执行时间最短的情况下,进行最优的任务分配策略,计算分配给CPU的任务数量和分配给GPU的任务数量,其中,分配给CPU的任务数量与分配给GPU的任务数量之和为总任务数。确保CPU和GPU同时完成任务,并尽可能减少总执行时间,提高了计算效率。

    一种针对CPU-GPU两级并行计算的自动负载均衡方法

    公开(公告)号:CN114398167A

    公开(公告)日:2022-04-26

    申请号:CN202111464876.8

    申请日:2021-12-03

    申请人: 武汉大学

    IPC分类号: G06F9/50

    摘要: 本发明提供了一种针对CPU‑GPU两级并行计算的自动负载均衡方法,首先获取CPU核数;并根据CPU核数获取在CPU中创建的线程数;然后获取并行计算的总任务数与多线程校正参数,并计算单个任务分别在CPU和GPU上执行所需的时间;最后在总执行时间最短的情况下,进行最优的任务分配策略,计算分配给CPU的任务数量和分配给GPU的任务数量,其中,分配给CPU的任务数量与分配给GPU的任务数量之和为总任务数。确保CPU和GPU同时完成任务,并尽可能减少总执行时间,提高了计算效率。