基于语言大模型的文档聚类排序方法、系统、设备及介质

    公开(公告)号:CN118152572A

    公开(公告)日:2024-06-07

    申请号:CN202410377375.3

    申请日:2024-03-29

    Abstract: 本发明公开了基于语言大模型的文档聚类排序方法、系统、设备及介质,其中方法包括:收集文档数据进行结构化处理与预处理;将文档内容输入语言大模型得到向量化表示;对向量化文档内容使用聚类算法得到文档簇及文档簇中的相似度矩阵,对各文档簇内文档按照相似度矩阵的加权和进行簇内排序,将排序前十的文档标题作为种子文档标题;统计文档簇中的各等级文档数量、文档总数与文档簇相关系数加权和,并计算所述三个指标的加权和,得到各文档簇最终得分,按照得分高低排序;将种子文档标题与设定prompt输入语言大模型生成短句,作为文档簇的类标签。本发明能够使得文档向量化更加准确,类排序依据更加科学,类标签的生成更加具体化、自动化。

Patent Agency Ranking