一种基于多源数据和主题模型的技术清单生成方法和系统

    公开(公告)号:CN114780617B

    公开(公告)日:2024-11-22

    申请号:CN202210483086.2

    申请日:2022-05-05

    Abstract: 本发明公开了一种基于多源数据和主题模型的技术清单生成方法,包括:获取与某个技术领域对应的多个科技文献,对该科技文献进行数据处理,并将处理后的多个科技文献存储在科技文献数据库中,将科技文献数据库中的所有科技文献输入训练好的支持向量机模型SVM中进行技术类别划分,并将技术类别划分结果存储在科技文献数据库中,将科技文献数据库中属于同一技术类别的科技文献合并为一个文档,所有文档形成文档库,对文档库先后进行停用词去除和低频词去除处理,以得到更新后的文档库,使用主题建模算法LDA对更新后的文档库进行主题聚类,以得到所有主题对应的单词分布矩阵。本发明能解决基于专家研判的方法存在的主观性强、成本较大的技术问题。

    一种基于多源数据和主题模型的技术清单生成方法和系统

    公开(公告)号:CN114780617A

    公开(公告)日:2022-07-22

    申请号:CN202210483086.2

    申请日:2022-05-05

    Abstract: 本发明公开了一种基于多源数据和主题模型的技术清单生成方法,包括:获取与某个技术领域对应的多个科技文献,对该科技文献进行数据处理,并将处理后的多个科技文献存储在科技文献数据库中,将科技文献数据库中的所有科技文献输入训练好的支持向量机模型SVM中进行技术类别划分,并将技术类别划分结果存储在科技文献数据库中,将科技文献数据库中属于同一技术类别的科技文献合并为一个文档,所有文档形成文档库,对文档库先后进行停用词去除和低频词去除处理,以得到更新后的文档库,使用主题建模算法LDA对更新后的文档库进行主题聚类,以得到所有主题对应的单词分布矩阵。本发明能解决基于专家研判的方法存在的主观性强、成本较大的技术问题。

Patent Agency Ranking