基于大语言模型的数据处理方法及相关产品

    公开(公告)号:CN119398057A

    公开(公告)日:2025-02-07

    申请号:CN202311388559.1

    申请日:2023-10-24

    Inventor: 李秉千 周熠 董翔

    Abstract: 本申请公开了一种基于大语言模型的数据处理方法及相关产品。该数据处理方法包括:采集原始文本数据;提取所述原始文本数据的语义标签;生成与所述语义标签相关的多条关联文本;以及将所述语义标签和对应的多条关联文本组合,以构建出语义标注数据集。本申请可以提取文本数据中的语义标签,并生成与所提取的语义标签相关的多条关联文本。此后,将多条关联成本与语义标签组合,可以构建内容丰富且多样的语义标注数据集,这样构建的语义标注数据集能够提供充足的上下文信息。由此,在进行数据处理时,大语言模型能够利用丰富的上下文语义信息来消解词语的多义性所带来的问题,有效解决数据增强中词语多义所引发的语义偏移问题。

    数据增强方法、电子设备及存储介质

    公开(公告)号:CN119397265A

    公开(公告)日:2025-02-07

    申请号:CN202410529696.0

    申请日:2024-04-29

    Abstract: 本申请公开了一种数据增强方法、电子设备及存储介质。该数据增强方法包括:基于预设底层逻辑语言构建逻辑表达式格式;基于逻辑表达式格式中的每一变量元素生成每一变量元素分别对应的多个元素值;基于逻辑表达式格式和每一变量元素分别对应的多个元素值构建多个逻辑表达式;基于多个逻辑表达式生成多个自然语言文本以构成目标增强数据集。利用本申请的方案,能够降低人工标注的成本,提升数据集的多样性和构建效率,有利于语义解析模型的构建。

Patent Agency Ranking