-
公开(公告)号:CN105335351B
公开(公告)日:2018-08-28
申请号:CN201510701365.1
申请日:2015-10-27
Abstract: 本发明涉及一种基于专利搜索日志用户行为的同义词自动挖掘方法,包括以下步骤:步骤1)对专利搜索日志进行预处理,利用专利搜索日志同义词集的结构模板获取候选同义词集;步骤2)提取出候选同义词集中的候选同义词的字面特征、读音特征和查询特征。本发明提供的基于专利搜索日志用户行为的同义词自动挖掘方法,通过选取字面特征、读音特征和查询特征可以有效地提高专利搜索日志领域的同义词识别的准确度,可以很好地满足实际应用的需要。
-
公开(公告)号:CN107807971A
公开(公告)日:2018-03-16
申请号:CN201710969647.9
申请日:2017-10-18
CPC classification number: G06F17/30268 , G06N3/0454 , G06N3/084
Abstract: 本发明涉及一种自动图像语义描述方法,包括构建及训练基于CNN和GRU的自动图像语义描述模型,具体为:步骤1)定义目标函数;步骤2)进行从图像到语义描述翻译的过程;步骤3)对误差进行反向的传播。本发明提供的自动图像语义描述方法,将CNN提取的某层全连接层特征作为GRU模型的输入,有效融合图像的底层特征和图像语义描述高层语义信息,精度高,准确度高,使用较少的参数就达到较高的语义描述精度,可以很好地满足实际应用的需要。
-
公开(公告)号:CN106933800A
公开(公告)日:2017-07-07
申请号:CN201611070608.7
申请日:2016-11-29
Abstract: 本发明涉及一种金融领域的事件句抽取方法,包括以下步骤:步骤1)利用互联网搜索和上市公司名信息进行公司名识别;步骤2)综合考虑语句所在位置、公司名信息、领域动词信息、语句与标题相似度四个方面特征,构造权值表达;步骤3)从句子集中提取金融事件句。本发明提出了基于互联网信息的公司名识别方法,利用的规则少,不受训练语料限制,能充分为事件句的提取及事件元素的识别做好准备,解决了进行公司名识别时所面临的简称使用频繁、口语化现象严重带来的问题;本发明从公司名信息、领域动词信息、语句与标题相似度、语句所在位置四个方面对句子进行综合权重计算,最终选出金融事件句,能够高效地识别和提取金融事件句。
-
公开(公告)号:CN106776866A
公开(公告)日:2017-05-31
申请号:CN201611070607.2
申请日:2016-11-29
IPC: G06F17/30
Abstract: 本发明涉及一种对高校网站上的会议稿进行知识抽取的方法,包括以下步骤:步骤1):采用基于规则的方式对会议稿进行分类;步骤2):对会议稿进行实体抽取;步骤3):采用四词位标记法对训练集中的每一个字进行标注;步骤4):选择特征模板;步骤5):采用基于贝叶斯的实体条件概率对语料进行二次识别。本发明提供的对高校网站上的会议稿进行知识抽取的方法,对高校网站上的会议稿进行知识抽取的效率高、效果好,所获得的准确率、召回率及调和参数值均比现有技术更加理想,可以很好地满足实际应用的需要。
-
公开(公告)号:CN105468791A
公开(公告)日:2016-04-06
申请号:CN201610001346.2
申请日:2016-01-05
Applicant: 北京信息科技大学 , 北京市新技术应用研究所
IPC: G06F17/30
Abstract: 本发明涉及一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法,包括以下步骤:步骤1):通过数据处理提取缺陷地理位置实体defectLoc;步骤2):对提取的defectLoc生成问题:“某defectLoc属于哪个区”,通过百度知道进行检索;步骤3):根据检索的结果提取特征,计算defectLoc属于各个区域的得分,并构建出defectLoc的所属区域特征向量;步骤4):利用规则对defectLoc进行完整化处理。本发明以微博城市投诉文本为基础,针对其中的地理位置实体表达不规范、非结构化的特点,使得工作人员很难进行统计分析工作,本发明提出一种基于百度知道的地理位置实体的完整性表达方法,对缺陷地理位置实体完整化具有较高的准确率,可以很好地满足实际应用的需要。
-
公开(公告)号:CN105447159A
公开(公告)日:2016-03-30
申请号:CN201510863732.8
申请日:2015-12-02
Applicant: 北京信息科技大学 , 北京城市系统工程研究中心
IPC: G06F17/30
CPC classification number: G06F16/9535
Abstract: 本发明涉及一种用户间查询关联度的查询扩展方法,包括以下步骤:步骤1)统计一个用户所浏览的网页的总数;步骤2)划分兴趣类别;步骤3)统计该用户所浏览的网页所包含的兴趣类别的种类数目以及网页的数目;步骤4)计算该用户对各个兴趣类别的兴趣偏好权重;步骤5)构建出该用户的用户偏好模型;步骤6)利用步骤1)至步骤5)的方法构建出多个用户偏好模型;步骤7)形成多个用户群;步骤8)将用户群里的每一个用户的文档点击信息构成一个搜索空间。本发明优先将与用户兴趣密切相关的用户作为查询扩展的背景知识,作为查询扩展的依据,在此基础上利用关联查询分析查询词之间的关联关系,解决了初次检索质量不高的问题,提高了检索效率。
-
公开(公告)号:CN105335351A
公开(公告)日:2016-02-17
申请号:CN201510701365.1
申请日:2015-10-27
CPC classification number: G06F17/2795 , G06F17/277 , G06F17/30705
Abstract: 本发明涉及一种基于专利搜索日志用户行为的同义词自动挖掘方法,包括以下步骤:步骤1)对专利搜索日志进行预处理,利用专利搜索日志同义词集的结构模板获取候选同义词集;步骤2)提取出候选同义词集中的候选同义词的字面特征、读音特征和查询特征。本发明提供的基于专利搜索日志用户行为的同义词自动挖掘方法,通过选取字面特征、读音特征和查询特征可以有效地提高专利搜索日志领域的同义词识别的准确度,可以很好地满足实际应用的需要。
-
公开(公告)号:CN105224689A
公开(公告)日:2016-01-06
申请号:CN201510726507.X
申请日:2015-10-30
Applicant: 北京信息科技大学
IPC: G06F17/30
CPC classification number: G06F16/35
Abstract: 本发明涉及一种东巴文献分类方法,包括以下步骤:步骤1)划分训练集与测试集;步骤2)文本预处理;步骤3)特征选择;步骤4)利用文献特征进行二次降维得到东巴文献分类的特征;步骤5)特征加权;步骤6)用向量空间模型来表示训练集和测试集的文档,得到其向量空间模型表示形式;步骤7)根据分类规则对测试集进行分类得到分类结果。本发明提出的东巴文献分类方法,设计科学合理,工作效率高,利用GMI特征选择算法选择出文本特征,然后结合文献特征进行二次降维得到东巴文献的分类特征,最后利用支持向量机分类器对东巴文献进行训练和测试,平均正确率和召回率都很高,为东巴文献分类提供了一个非常有效的方法。
-
公开(公告)号:CN105224520A
公开(公告)日:2016-01-06
申请号:CN201510623936.4
申请日:2015-09-28
Applicant: 北京信息科技大学
Abstract: 本发明涉及一种中文专利文献术语自动识别方法,包括以下步骤:步骤1):基于专利标题自动生成词性规则;步骤2):手工构建停用词表;步骤3):对生成的所述词性规则按照所含词性的个数进行分类;步骤4):利用TermRank排序算法对候选术语进行排序。本发明首先利用统计学方法从专利标题中自动学习出构成术语的词性规则,解决了人工总结术语词性规则的不足;采用TermRank排序方法对候选术语进行排序,综合考虑了专利文献中的语言学和统计学特征,能够较好的区分术语和非术语,具有较高的可靠性,可以很好地满足实际应用的需要。
-
-
-
-
-
-
-
-