一种科技文本挑选方法及装置

    公开(公告)号:CN106294330A

    公开(公告)日:2017-01-04

    申请号:CN201510233967.9

    申请日:2015-05-11

    Applicant: 清华大学

    Abstract: 本发明提出了一种科技文本挑选方法及装置,属于计算机文本分析挖掘领域。本发明实施例装置及方法包括:选取的特征样本集;对样本集中文本进行特征评分的计算模块,包括基于文本的客观评分模块、文本的模糊评分模块以及文本与样本集间关联度评分模块,其中基于文本的模糊评分模块包括文本专业词汇模糊评分、文本关键句式判别与评分以及文本语言客观度评分;通过建立以各项评分与文本是否被标注为可选的训练集,训练得到的神经网络模型筛选的模型;对于待挑选文本,挑选方法为,文本先进行各项特征评分,再经已训练好的神经网络模型筛选。本发明还可用于其他各种具有一定特征的专业文档的评价挑选或评价挑选系统的建立。

    一种科技文本挑选方法及装置

    公开(公告)号:CN106294330B

    公开(公告)日:2020-11-20

    申请号:CN201510233967.9

    申请日:2015-05-11

    Applicant: 清华大学

    Abstract: 本发明提出了一种科技文本挑选方法及装置,属于计算机文本分析挖掘领域。本发明实施例装置及方法包括:选取的特征样本集;对样本集中文本进行特征评分的计算模块,包括基于文本的客观评分模块、文本的模糊评分模块以及文本与样本集间关联度评分模块,其中基于文本的模糊评分模块包括文本专业词汇模糊评分、文本关键句式判别与评分以及文本语言客观度评分;通过建立以各项评分与文本是否被标注为可选的训练集,训练得到的神经网络模型筛选的模型;对于待挑选文本,挑选方法为,文本先进行各项特征评分,再经已训练好的神经网络模型筛选。本发明还可用于其他各种具有一定特征的专业文档的评价挑选或评价挑选系统的建立。

Patent Agency Ranking