一种基于知识本体的专利文献相似性度量方法

    公开(公告)号:CN107247780A

    公开(公告)日:2017-10-13

    申请号:CN201710436963.X

    申请日:2017-06-12

    Inventor: 李建宏 张华平

    CPC classification number: G06F17/30976 G06F17/2785

    Abstract: 本发明涉及一种基于知识本体的专利文献相似性度量方法,涉及面向专利文本的自然语言信息处理技术领域;该方法依据专利文献结构特点、位置特征和关键词特征提取核心技术方案;构建专利分类号主题词词间关系模型;根据分类号主题词词间关系模型构建领域词典并以之对核心技术方案分词和去停用词;主题词词间关系结合以TF‑IDF作为TextRank词初始权重提取关键词和权重;训练FastText模型,生成词向量;根据关键词、词权重和词向量,计算EMD距离,得出语义距离。对比现有技术,本发明解决了传统专利文献相似性度量方法未充分考虑专利文本结构特点,领域特点,词间关系特点及语义近似表述不一致导致的相似度低的问题。

Patent Agency Ranking