一种基于分层问句生成与自博弈的数据扩充方法

    公开(公告)号:CN119025540A

    公开(公告)日:2024-11-26

    申请号:CN202411054872.6

    申请日:2024-08-02

    Abstract: 本发明公开了一种基于分层问句生成与自博弈的数据扩充方法,首先设计了一个分层的问句生成模型,利用目标查询语句与当前查询语句,经过子句分解、预测子句集生成、子问句转换、问句组合四个步骤预测下一问句。在已有的多轮医疗Text‑to‑SQL数据基础上,借助自博弈思想循环生成新的数据。这种分层的问句生成可以更好地处理复杂SQL语句,生成更自然准确的问句,增加对话流的多样性。经自博弈生成的扩充数据集可以有效缓解医疗会诊场景下多轮Text‑to‑SQL数据集稀缺的问题,提高重训练后Text‑to‑SQL模型的泛化能力,进而提高模型性能。

Patent Agency Ranking