-
公开(公告)号:CN112182448A
公开(公告)日:2021-01-05
申请号:CN201910605528.4
申请日:2019-07-05
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/957 , G06F40/289
Abstract: 本发明实施例提供一种页面信息处理方法、装置及设备,该方法包括:在至少一个网络页面中获取至少一个候选词组,每个候选词组中包括至少一个名词词性的词汇;获取每个候选词组的内部凝合度、外部自由度和重要程度,内部凝合度用于指示候选词组为一个完整词的概率,外部自由度用于指示候选词组与多个语言环境相匹配的概率,重要程度用于指示候选词将至少一个网络页面中的内容与其它内容区分开的概率;根据每个候选词组的内部凝合度、外部自由度和重要程度,在至少一个候选词组中确定产品词和服务词。提高了确定产品词和服务词的准确性。
-
公开(公告)号:CN111475603A
公开(公告)日:2020-07-31
申请号:CN201910063094.X
申请日:2019-01-23
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/33
Abstract: 本申请提出一种企业标识识别方法、装置、计算机设备及存储介质,其中,方法包括:通过根据预设的企业品牌词集和预设的企业属性词集,计算待识别文本与不同企业标识对应的属性信息之间的文本相似度,将待识别文本输入预先训练得到的语义相似度模型,获取待识别文本与不同企业标识对应的属性信息之间的语义相似度,根据文本相似度和语义相似度,确定与待识别文本匹配的目标企业标识。由此,提高了企业标识识别的准确率,而且还提高企业标识识别召回率。
-
公开(公告)号:CN111260569A
公开(公告)日:2020-06-09
申请号:CN202010027521.1
申请日:2020-01-10
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了一种图像倾斜校正的方法、装置、电子设备和存储介质,涉及图像处理领域。具体实现方案为:根据待处理图像中的文本行的外接矩形,对待处理图像进行旋转处理,得到待处理图像的初始校正图像,初始校正图像中的文本行的外接矩形与水平方向垂直或平行;若初始校正图像中的文本行中的文字方向非正立,则对初始校正图像进行旋转处理,得到待处理图像的校正图像,校正图像中的文本行的文字方向为正立。本申请中在根据文本行的外接矩形对图像进行旋转后,还能够根据图像中的文字方向对图像进行90度倍数的旋转处理,使得旋转后的图像中的文字方向均为正立。
-
公开(公告)号:CN108537289B
公开(公告)日:2023-04-07
申请号:CN201810374080.5
申请日:2018-04-24
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F18/214
Abstract: 本发明提出一种数据识别模型的训练方法、装置及存储介质,数据识别模型包括:多层识别逻辑,该方法包括确定第一数据基于不同识别逻辑下的预设指标的实际值,得到与每层识别逻辑对应的实际值,其中,第一数据为海量的评论数据;根据实际值确定是否需要对初始的数据识别模型进行迭代训练;在确定需要进行迭代训练时,获取初始的数据识别模型的训练数据集,训练数据集用于对数据识别模型进行初始的训练;按照预设策略,根据第一数据对训练数据集进行更新,得到新数据集,并根据新数据集对初始的数据识别模型进行自动化迭代训练。通过本发明能够结合海量的评论数据实现数据识别模型的自动化迭代更新训练,释放人力成本,提升模型识别精准度。
-
公开(公告)号:CN111476090A
公开(公告)日:2020-07-31
申请号:CN202010145315.0
申请日:2020-03-04
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了一种水印识别方法和装置,涉及计算机技术领域中的图像识别技术领域,其中,方法包括:获取目标图像的功能信息,并识别目标图像中的内容区域;将功能信息与内容区域中的内容匹配,确定功能信息所在的功能子区域;在内容区域中确定功能子区域之外的候选子区域;在候选子区域中进行水印检测。由此,提高了水印识别的准确率和效率,解决现有技术中,水印多样化带来的识别困难的技术问题。
-
公开(公告)号:CN111209909A
公开(公告)日:2020-05-29
申请号:CN202010033391.2
申请日:2020-01-13
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了一种资质识别模板构建方法、装置、设备和存储介质,涉及数据采集技术领域。具体实现方案为:对资质样本图像进行字符识别,得到字符内容和字符位置信息;基于所述字符内容和所述字符位置信息,确定所述资质样本图像中的关键字段区域以及信息值区域;根据所述关键字段区域和所述信息值区域,构建资质识别模板。本申请实施例通过从资质样本图像中识别并抽取包括关键字段区域以及信息值区域的待识别区域,能够快速构建各类或各版本资质的资质识别模板,避免人工对资质识别模板的个性化定制等繁复流程,提高资质识别模板构建和更新效率,降低开发成本。
-
公开(公告)号:CN108550065A
公开(公告)日:2018-09-18
申请号:CN201810317233.2
申请日:2018-04-10
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种评论数据处理方法、装置及设备,其中方法包括:获取待处理的目标评论数据及目标评论数据对应的用户信息;根据用户信息,确定用户的可信度;对目标评论数据进行识别处理,确定目标评论数据的可信度;根据用户的可信度及目标评论数据的可信度,确定目标评论数据所属的类型。该方法实现了根据评论数据的可信度及评论数据对应用户的可信度,对评论数据进行自动识别,不仅提高了对评论数据识别的准确性,而且提高了对评论数据识别的处理速度,降低了对评论数据处理的成本,为向用户提供可靠的评论数据提供了保障。
-
公开(公告)号:CN108537289A
公开(公告)日:2018-09-14
申请号:CN201810374080.5
申请日:2018-04-24
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06K9/62
Abstract: 本发明提出一种数据识别模型的训练方法、装置及存储介质,数据识别模型包括:多层识别逻辑,该方法包括确定第一数据基于不同识别逻辑下的预设指标的实际值,得到与每层识别逻辑对应的实际值,其中,第一数据为海量的评论数据;根据实际值确定是否需要对初始的数据识别模型进行迭代训练;在确定需要进行迭代训练时,获取初始的数据识别模型的训练数据集,训练数据集用于对数据识别模型进行初始的训练;按照预设策略,根据第一数据对训练数据集进行更新,得到新数据集,并根据新数据集对初始的数据识别模型进行自动化迭代训练。通过本发明能够结合海量的评论数据实现数据识别模型的自动化迭代更新训练,释放人力成本,提升模型识别精准度。
-
-
-
-
-
-
-