一种赛事新闻领域词库的构建方法

    公开(公告)号:CN108536821A

    公开(公告)日:2018-09-14

    申请号:CN201810310248.6

    申请日:2018-04-09

    Inventor: 吕学强 董志安

    Abstract: 本发明涉及一种赛事新闻领域词库的构建方法,包括:识别赛事新闻中的领域词、识别球员名和球队名;本发明提供的赛事新闻领域词库的构建方法,通过改进互信息方法得到构建领域词的方法,通过词语在领域内的频度和分散度以及领域间的集中度改进了互信息方法,并把其他领域的互信息平均值也作为考虑项,用本领域的改进互信息值与其他领域改进互信息的平均值的差,来作为计算词语对类别领域值的计算方法,本发明提出的方法没有涉及到领域内知识,可扩展性比较强,能够取得很好的识别效果,识别准确率高,而且把识别出来的球队名、球员名和领域词添加到领域词库中,可以很好地满足实际应用的需要。

    一种基于专利搜索日志用户行为的同义词自动挖掘方法

    公开(公告)号:CN105335351B

    公开(公告)日:2018-08-28

    申请号:CN201510701365.1

    申请日:2015-10-27

    Abstract: 本发明涉及一种基于专利搜索日志用户行为的同义词自动挖掘方法,包括以下步骤:步骤1)对专利搜索日志进行预处理,利用专利搜索日志同义词集的结构模板获取候选同义词集;步骤2)提取出候选同义词集中的候选同义词的字面特征、读音特征和查询特征。本发明提供的基于专利搜索日志用户行为的同义词自动挖掘方法,通过选取字面特征、读音特征和查询特征可以有效地提高专利搜索日志领域的同义词识别的准确度,可以很好地满足实际应用的需要。

    一种红外图像人数识别方法

    公开(公告)号:CN107977612A

    公开(公告)日:2018-05-01

    申请号:CN201711170160.0

    申请日:2017-11-21

    Abstract: 本发明涉及一种红外图像人数识别方法,包括以下步骤:步骤一:将整张图像根据人体之间的粘连情况分为若干个连通域;步骤二:先采用归一化像素统计的方法逐个统计各连通域内人数;当连通域内人数大于设定的阈值时,放弃采用归一化像素统计的方法统计得出的该连通域内的人数结果,进入步骤三;否则,保留采用归一化像素统计的方法统计该连通域内人数结果;步骤三:采用基于粘连人体分割的人数统计方法统计人数。本发明提供的红外图像人数识别方法,采用像素特征和粘连人体分割相结合的检测方法,检测效果好,能够准确地定位出人体所在位置并统计出人数,误差很小,统计结果准确度很高,可以很好地满足实际应用的需要。

    一种自动图像语义描述方法

    公开(公告)号:CN107807971A

    公开(公告)日:2018-03-16

    申请号:CN201710969647.9

    申请日:2017-10-18

    CPC classification number: G06F17/30268 G06N3/0454 G06N3/084

    Abstract: 本发明涉及一种自动图像语义描述方法,包括构建及训练基于CNN和GRU的自动图像语义描述模型,具体为:步骤1)定义目标函数;步骤2)进行从图像到语义描述翻译的过程;步骤3)对误差进行反向的传播。本发明提供的自动图像语义描述方法,将CNN提取的某层全连接层特征作为GRU模型的输入,有效融合图像的底层特征和图像语义描述高层语义信息,精度高,准确度高,使用较少的参数就达到较高的语义描述精度,可以很好地满足实际应用的需要。

    一种金融领域的事件句抽取方法

    公开(公告)号:CN106933800A

    公开(公告)日:2017-07-07

    申请号:CN201611070608.7

    申请日:2016-11-29

    Abstract: 本发明涉及一种金融领域的事件句抽取方法,包括以下步骤:步骤1)利用互联网搜索和上市公司名信息进行公司名识别;步骤2)综合考虑语句所在位置、公司名信息、领域动词信息、语句与标题相似度四个方面特征,构造权值表达;步骤3)从句子集中提取金融事件句。本发明提出了基于互联网信息的公司名识别方法,利用的规则少,不受训练语料限制,能充分为事件句的提取及事件元素的识别做好准备,解决了进行公司名识别时所面临的简称使用频繁、口语化现象严重带来的问题;本发明从公司名信息、领域动词信息、语句与标题相似度、语句所在位置四个方面对句子进行综合权重计算,最终选出金融事件句,能够高效地识别和提取金融事件句。

    一种对高校网站上的会议稿进行知识抽取的方法

    公开(公告)号:CN106776866A

    公开(公告)日:2017-05-31

    申请号:CN201611070607.2

    申请日:2016-11-29

    Abstract: 本发明涉及一种对高校网站上的会议稿进行知识抽取的方法,包括以下步骤:步骤1):采用基于规则的方式对会议稿进行分类;步骤2):对会议稿进行实体抽取;步骤3):采用四词位标记法对训练集中的每一个字进行标注;步骤4):选择特征模板;步骤5):采用基于贝叶斯的实体条件概率对语料进行二次识别。本发明提供的对高校网站上的会议稿进行知识抽取的方法,对高校网站上的会议稿进行知识抽取的效率高、效果好,所获得的准确率、召回率及调和参数值均比现有技术更加理想,可以很好地满足实际应用的需要。

    NBA赛事新闻的自动生成方法

    公开(公告)号:CN106407343A

    公开(公告)日:2017-02-15

    申请号:CN201610803389.2

    申请日:2016-09-06

    Abstract: 本发明涉及一种NBA赛事新闻的自动生成方法,包括以下步骤:步骤1):解析和存储网站的内容,抽取比赛的基本信息;步骤2):对一节的多条文字直播信息进行预处理,得到该节包含得分信息的文字直播信息集合;步骤3):将该节的文字直播信息集合分为三个数据块;步骤4):从步骤3)中所分出的每一个数据块中抽取重要信息;步骤5):对每一个数据块构建模板,并将所述基本信息和所述重要信息填入模板;步骤6):重复步骤2)-步骤5),得到所有节的模板并填入基本信息和重要信息。本发明能够生成真实、生动的NBA赛事新闻,大大减轻了新闻工作者的工作负担,提高了新闻工作者的工作效率,可以很好地满足实际应用的需要。

    基于搜索日志的中文人名自扩展识别方法

    公开(公告)号:CN103870489B

    公开(公告)日:2016-12-21

    申请号:CN201210539985.6

    申请日:2012-12-13

    Inventor: 吕学强 文彬

    Abstract: 本发明属于计算语言学的自然语言处理领域,公开了一种基于搜索日志的中文人名自扩展识别方法,该方法借助“姓氏驱动”人名识别思想,利用搜索日志查询串首字姓氏特点,挖掘种子人名;利用种子人名在搜索日志中生成候选人名模板集;根据候选人名模板在所对应查询串和整个查询日志频次变化趋势,筛选人名模板;根据人名模板生成候选人名;利用前向后向关键词匹配界定、筛选候选人名,获得人名集合;基于自扩展迭代思想,利用当前获得的人名集合作为下一次迭代过程的种子人名集,人名模板集中区分度最高的前n个模板作为下一次迭代的种子模板,由此挖掘出搜索日志中人名,利用搜索日志本身特点构建种子人名、生成人名模板,根据人名上下文在对应查询串及整个搜索日志查询串的变化趋势,过滤人名模板,降低了人名识别时的噪音信息,提高了搜索日志中人名识别率。

    一种基于对话机器人的招生自动问答方法及系统

    公开(公告)号:CN105677822A

    公开(公告)日:2016-06-15

    申请号:CN201610001347.7

    申请日:2016-01-05

    CPC classification number: G06F17/30976 G06Q50/2053

    Abstract: 本发明涉及一种基于对话机器人的招生自动问答方法及系统,所述方法包括以下步骤:步骤1)获取用户输入的文字;步骤2)对所述用户输入的文字进行文字处理;步骤3)根据进行文字处理后的文字,利用模糊匹配方法和内部推理机制从知识库中选择最佳答案;步骤4)将所述最佳答案发送给用户。本发明对ALICE开源聊天机器人进行了改进,将领域本体库作为问答系统的附加知识库,利用构建的领域本体的上下位关系对用户所提问题进行用户意图挖掘,在实现基本问答的基础上,利用领域本体的上下位信息对用户给出相关内容推荐,使得考生在没有获取到相关问题答案时也能得到一些相关联内容的推荐结果,从而提高了问答系统的满意度。

    一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法

    公开(公告)号:CN105468791A

    公开(公告)日:2016-04-06

    申请号:CN201610001346.2

    申请日:2016-01-05

    Abstract: 本发明涉及一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法,包括以下步骤:步骤1):通过数据处理提取缺陷地理位置实体defectLoc;步骤2):对提取的defectLoc生成问题:“某defectLoc属于哪个区”,通过百度知道进行检索;步骤3):根据检索的结果提取特征,计算defectLoc属于各个区域的得分,并构建出defectLoc的所属区域特征向量;步骤4):利用规则对defectLoc进行完整化处理。本发明以微博城市投诉文本为基础,针对其中的地理位置实体表达不规范、非结构化的特点,使得工作人员很难进行统计分析工作,本发明提出一种基于百度知道的地理位置实体的完整性表达方法,对缺陷地理位置实体完整化具有较高的准确率,可以很好地满足实际应用的需要。

Patent Agency Ranking