企业实体的识别方法、装置、计算机设备及存储介质

    公开(公告)号:CN108460014A

    公开(公告)日:2018-08-28

    申请号:CN201810121667.5

    申请日:2018-02-07

    Abstract: 本发明提出一种企业实体的识别方法、装置、计算机设备及存储介质,其中,方法包括:采集舆情文本进行分词处理,得到分词结果;根据所述分词结果进行企业全称识别,获取所述舆情文本中包括的第一企业全称;根据所述分词结果进行企业简称识别,获取所述舆情文本中包括的第一企业简称;将识别出的所述第一企业全称和所述第一企业简称确定为企业实体的名称。通过本方法,能够从网络舆情文本中提取出企业实体,提高企业实体识别的准确率。

    评论数据处理方法、装置及设备

    公开(公告)号:CN108550065B

    公开(公告)日:2022-10-18

    申请号:CN201810317233.2

    申请日:2018-04-10

    Abstract: 本发明提出一种评论数据处理方法、装置及设备,其中方法包括:获取待处理的目标评论数据及目标评论数据对应的用户信息;根据用户信息,确定用户的可信度;对目标评论数据进行识别处理,确定目标评论数据的可信度;根据用户的可信度及目标评论数据的可信度,确定目标评论数据所属的类型。该方法实现了根据评论数据的可信度及评论数据对应用户的可信度,对评论数据进行自动识别,不仅提高了对评论数据识别的准确性,而且提高了对评论数据识别的处理速度,降低了对评论数据处理的成本,为向用户提供可靠的评论数据提供了保障。

    对象的行业类型识别方法和装置

    公开(公告)号:CN108733778B

    公开(公告)日:2022-05-17

    申请号:CN201810420223.1

    申请日:2018-05-04

    Abstract: 本发明提出一种对象的行业类型识别方法和装置,其中,方法包括:将待识别对象的文本信息输入用于生成段落向量的语言模型中进行学习,得到待识别对象的与行业类型相关的向量空间;根据每个待识别对象的向量空间,从所有的待识别对象中选取第一待识别对象作为训练样本对象,获取训练样本对象的标注数据;利用训练样本对象的向量空间和标注数据,对构建的行业类型识别模型进行训练,得到目标行业类型识别模型;针对除训练样本对象之外的每个第二待识别对象,将第二待识别对象的向量空间,输入到目标行业类型识别模型中进行学习,得到第二待识别对象所隶属的行业类型。该方法能够提升行业类型识别模型的识别结果的准确率。

    新闻的展示方法和装置
    15.
    发明授权

    公开(公告)号:CN108021596B

    公开(公告)日:2021-12-28

    申请号:CN201610973969.6

    申请日:2016-11-04

    Abstract: 本发明提出一种新闻的展示方法和装置,其中,该新闻的展示方法包括:获取与同一商家有关的多篇新闻及对应的发布时间;分别为多篇新闻添加各自的标签信息,其中,标签信息包括事件标签和事件状态标签;根据多篇新闻的事件标签和发布时间,对多篇新闻按照事件进行分类;针对每类事件,根据事件状态标签,确定属于同一类事件的新闻的展示顺序。本发明的新闻的展示方法将与同一个商家有关的多篇新闻,从事件维度,将描述同一事件不同阶段的新闻进行顺序展示,方便了用户了解商家所经历的事件。

    用于提取信息的方法和装置

    公开(公告)号:CN111401110A

    公开(公告)日:2020-07-10

    申请号:CN201910005179.2

    申请日:2019-01-03

    Abstract: 本申请实施例公开了用于提取信息的方法和装置。该方法的一具体实施方式包括:获取第一证书图像,其中,第一证书图像中显示有目标字段;从第一证书图像中确定显示有目标字段的区域的外接几何图形作为第一外接几何图形;基于第一外接几何图形所围成的区域,提取目标字段。该实施方式降低了第一证书图像中所包括的其他区域对提取目标字段的影响。

    一种获取舆情数据的方法和装置

    公开(公告)号:CN107544988A

    公开(公告)日:2018-01-05

    申请号:CN201610482038.6

    申请日:2016-06-27

    Abstract: 本发明提供了一种获取舆情数据的方法和装置,预先挖掘实体词库,所述实体词库包括描述所对应实体的关键词;在获取舆情数据时,从所获取的网页数据中提取关键词;将提取的关键词与各实体词库进行相似度匹配,确定相似度满足预设要求的实体词库所对应的实体;将所述网页数据作为所确定出实体的舆情数据。本发明能够自动实现舆情数据的获取,相比较人工收集舆情数据的方式,大大降低了人力成本,且提高了舆情数据的覆盖率。

    数据识别模型的训练方法、装置及存储介质

    公开(公告)号:CN108537289B

    公开(公告)日:2023-04-07

    申请号:CN201810374080.5

    申请日:2018-04-24

    Abstract: 本发明提出一种数据识别模型的训练方法、装置及存储介质,数据识别模型包括:多层识别逻辑,该方法包括确定第一数据基于不同识别逻辑下的预设指标的实际值,得到与每层识别逻辑对应的实际值,其中,第一数据为海量的评论数据;根据实际值确定是否需要对初始的数据识别模型进行迭代训练;在确定需要进行迭代训练时,获取初始的数据识别模型的训练数据集,训练数据集用于对数据识别模型进行初始的训练;按照预设策略,根据第一数据对训练数据集进行更新,得到新数据集,并根据新数据集对初始的数据识别模型进行自动化迭代训练。通过本发明能够结合海量的评论数据实现数据识别模型的自动化迭代更新训练,释放人力成本,提升模型识别精准度。

    用于识别文本类型的方法、装置和设备

    公开(公告)号:CN107797982B

    公开(公告)日:2021-05-07

    申请号:CN201610798213.2

    申请日:2016-08-31

    Abstract: 本申请公开了用于识别文本类型的方法、装置和设备。所述方法的一具体实施方式包括:对预先获取的文本进行预处理得到所述文本的关键词集合;计算所述关键词集合中的每个关键词在所述文本中的出现概率值;对于所述关键词集合中的每个关键词,将该关键词和与该关键词对应的出现概率值导入预先建立的文档主题生成模型,确定所述文档主题生成模型中预先设置的各个主题在所述文本的出现概率值;根据所述各个主题在所述文本中的出现概率值,识别所述文本所属的类型。该实施方式提高了识别文本类型的准确率。

Patent Agency Ranking