一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法

    公开(公告)号:CN110807084A

    公开(公告)日:2020-02-18

    申请号:CN201910404547.0

    申请日:2019-05-15

    Abstract: 本发明涉及一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法,包括以下步骤:步骤1):对专利文本进行预处理,识别出术语特征,同时加入位置信息,并通过改进的TextRank算法获得类别关键词特征,并将其组成向量矩阵;步骤2):将向量矩阵导入Bi-LSTM模型中,采用注意力机制获得文本信息的整体特征;步骤3):利用最大池化层选择每个句子的关键特征作为局部特征;步骤4):将整体特征和局部特征融合;步骤5):使用softmax分类器输出分类结果。本发明以专利术语关系抽取为基础,针对传统深度学习方法中存在的长距离依赖问题,本发明提出一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法。通过各种实验对比,本发明的效果优于已有的方法,可以很好地满足实际应用的需要。

    一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法

    公开(公告)号:CN105468791B

    公开(公告)日:2019-11-15

    申请号:CN201610001346.2

    申请日:2016-01-05

    Abstract: 本发明涉及一种基于互动问答社区‑百度知道的地理位置实体的完整性表达方法,包括以下步骤:步骤1):通过数据处理提取缺陷地理位置实体defectLoc;步骤2):对提取的defectLoc生成问题:“某defectLoc属于哪个区”,通过百度知道进行检索;步骤3):根据检索的结果提取特征,计算defectLoc属于各个区域的得分,并构建出defectLoc的所属区域特征向量;步骤4):利用规则对defectLoc进行完整化处理。本发明以微博城市投诉文本为基础,针对其中的地理位置实体表达不规范、非结构化的特点,使得工作人员很难进行统计分析工作,本发明提出一种基于百度知道的地理位置实体的完整性表达方法,对缺陷地理位置实体完整化具有较高的准确率,可以很好地满足实际应用的需要。

    基于融合策略的中文词语相似度计算方法

    公开(公告)号:CN109960786A

    公开(公告)日:2019-07-02

    申请号:CN201910236195.2

    申请日:2019-03-27

    Abstract: 本发明涉及一种基于融合策略的中文词语相似度计算方法,基于HowNet、同义词词林、Word2Vec训练的中文维基百科语料以及百度词典四者相结合来计算词语相似度,对于输入的两个词语,首先判断其在HowNet或者同义词词林中是否存在,如果存在,则利用HowNet或者同义词词林来计算相似度,否则,判断其是否在维基百科语料或者百度词典中存在,如果存在,则利用word2vec或者百度词典来计算词语的相似度。本发明提供的基于融合策略的中文词语相似度计算方法,融合策略综合考虑了知网、同义词词林、word2vec和百度词典,形成了策略之间的优势互补,计算得出的斯皮尔曼相关系数和皮尔逊相关系数比其他方法高,提高了词语相似度计算结果的准确性,可以很好地满足实际应用的需要。

    基于万有引力模型的关键词自动抽取方法

    公开(公告)号:CN109614626A

    公开(公告)日:2019-04-12

    申请号:CN201811566766.0

    申请日:2018-12-21

    Abstract: 本发明涉及一种基于万有引力模型的关键词自动抽取方法,包括:步骤1)构建通用词表;步骤2)表示词语质量;步骤3)计算词语距离;步骤4)计算词间引力。本发明分别从词语的质量表示与距离计算两方面改进传统的万有引力模型,克服了传统万有引力模型方法因词语质量表示单一而无法客观反映词语初始重要性的不足,综合语义距离和依存句法距离的优势改善了对比方法中依据位置偏移距离计算引力的缺陷,本发明方法在3GPP技术规范和公开数据集上均取得了优于传统方法的关键词提取效果,无需制定繁琐的模板规则,也不依赖于标注样本,可以很好地满足实际应用的需要。

    一种影视实体搜索方法
    65.
    发明公开

    公开(公告)号:CN109446399A

    公开(公告)日:2019-03-08

    申请号:CN201811202082.2

    申请日:2018-10-16

    Inventor: 吕学强 董志安

    Abstract: 本发明涉及一种影视实体搜索方法,首先对查询串进行分类,针对查询的不同类别提取查询关键字,然后计算关键字相似度,并进行扩展得到匹配词集合,最后进行加权匹配得到搜索结果。本发明提供的影视实体搜索方法,首先对查询串进行分类,针对查询的不同类别提取查询关键字,然后计算关键字相似度,并进行扩展得到匹配词集合,最后进行加权匹配得到搜索结果,得到的结果准确率高,减少了因查询串口语化和多元化导致的检索失败率,本方法对用户查询意图理解的准确度高,在语义理解和检索结果上具有很高的准确度,可以很好地满足实际应用的需要。

    一种基于主题模型的HSK作文生成方法

    公开(公告)号:CN109376347A

    公开(公告)日:2019-02-22

    申请号:CN201811202083.7

    申请日:2018-10-16

    Abstract: 本发明涉及一种基于主题模型的HSK作文生成方法,包括:训练LDA模型,得到句子和文本、词语和文本的分布,计算交叉熵,选择与主题关键词最相近的句子,然后生成文本。本发明提供的基于主题模型的HSK作文生成方法,通过训练LDA主题模型,得到句子和文本、词语和文本的分布,并通过计算交叉熵,选择与主题关键词最相近的句子,然后生成文本,且自动生成的文本在连贯性和逻辑性上效果好,语法错误较少,错别字较少,能够很好地完成写作任务,可以很好地满足实际应用的需要。

    一种金融新闻倾向性分析方法

    公开(公告)号:CN108932229A

    公开(公告)日:2018-12-04

    申请号:CN201810605916.8

    申请日:2018-06-13

    Inventor: 吕学强 董志安

    Abstract: 本发明涉及一种金融新闻倾向性分析方法,包括:识别公司名称、抽取关键句群和使用LSTM模型对关键句群进行分类。本发明提供的金融新闻倾向性分析方法,采用基于公司名简称辞典和百科查询的方法来识别公司名称,效果优且扩展性好,采用基于深度学习框架doc2vec文本相似度匹配综合特征属性关键句群抽取方法,抽取效果好,准确率和召回率高,文本倾向性判断准确率高,效果好,可以很好地满足实际应用的需要。

    一种汉语自动生成文本的自动评价方法

    公开(公告)号:CN108920455A

    公开(公告)日:2018-11-30

    申请号:CN201810610750.9

    申请日:2018-06-13

    Inventor: 吕学强 董志安

    Abstract: 本发明涉及一种汉语自动生成文本的自动评价方法,包括汉语语法特征分析、文本篇章特征分析、字符串相似度特征分析和回归分析评价的步骤,汉语语法特征分析是对汉语的表层表达进行分析和评价,分析语言的语法和表达;文本篇章特征分析是对文章的统一性和连贯性进行分析,分析文本的行文特点,从而评价是否是一篇通顺流畅、可读性强的文本;字符串相似度特征分析是通过对比待评价文本与参考文本之间的相似度。本发明提供的汉语自动生成文本的自动评价方法,包含汉语语法特征分析、文本篇章特征分析以及字符串相似度特征分析,可以对自动生成文本做出有效准确的评价,自动评价结果准确性高,可以很好地满足实际应用的需要。

    一种中文专利文本相似度计算方法

    公开(公告)号:CN108549634A

    公开(公告)日:2018-09-18

    申请号:CN201810310198.1

    申请日:2018-04-09

    Inventor: 吕学强 董志安

    Abstract: 本发明涉及一种中文专利文本相似度计算方法,包括:对文本进行分词;对分词结果计算TF-IDF值,抽取TF-IDF值较高的作为关键词,定位关键词所在的句子作为关键句,并将关键句中关键词最大的权值作为关键句的权值,得到每个文本的关键句集合;计算每个关键句的对文本的权重,依次选取待对比文本和对比文本的关键句,基于关键句的句子相似度计算文本的相似度。本发明利用已有的专利领域本体,分析专利文本中的语义关系,利用向量空间模型和领域本体来进行专利文本相似度的计算,计算结果的正确率和召回率较高,能够更准确地描述专利之间的相似程度,能够加快专利审查的速度,可以很好地满足实际应用的需要。

    一种赛事新闻领域词库的构建方法

    公开(公告)号:CN108536821A

    公开(公告)日:2018-09-14

    申请号:CN201810310248.6

    申请日:2018-04-09

    Inventor: 吕学强 董志安

    Abstract: 本发明涉及一种赛事新闻领域词库的构建方法,包括:识别赛事新闻中的领域词、识别球员名和球队名;本发明提供的赛事新闻领域词库的构建方法,通过改进互信息方法得到构建领域词的方法,通过词语在领域内的频度和分散度以及领域间的集中度改进了互信息方法,并把其他领域的互信息平均值也作为考虑项,用本领域的改进互信息值与其他领域改进互信息的平均值的差,来作为计算词语对类别领域值的计算方法,本发明提出的方法没有涉及到领域内知识,可扩展性比较强,能够取得很好的识别效果,识别准确率高,而且把识别出来的球队名、球员名和领域词添加到领域词库中,可以很好地满足实际应用的需要。

Patent Agency Ranking