一种基于大模型的跨语言知识获取方法

    公开(公告)号:CN116681067A

    公开(公告)日:2023-09-01

    申请号:CN202310629799.X

    申请日:2023-05-31

    Abstract: 一种基于大模型的跨语言知识获取方法,它涉及一种跨语言知识获取方法。本发明为了解决现有词典抽取方法在遇到非组成性短语时,通过以往的词典难以表达出短语的正确语义,甚至造成严重误导作用,而针对组成性短语而言,词典的简单组合也往往表示的短语语义不够精确的问题。本发明的步骤为:预处理源语言和目标语言的单语语料,同时从中抽取出候选短语,并构建短语用于评价短语对齐的测试集;将单语语料和候选短语作为训练数据,通过所设计的短语向量训练方法进行静态短语向量的训练;将静态短语向量通过跨语言映射方法;将单语语料和候选短语作为训练数据;将静态短语向量和步骤四的动态短语向量。本发明属于自然语言处理技术领域。

Patent Agency Ranking