一种数据抽取方法、设备及计算机可存储介质

    公开(公告)号:CN108874870A

    公开(公告)日:2018-11-23

    申请号:CN201810375770.2

    申请日:2018-04-24

    Abstract: 本发明公开了一种数据抽取方法、设备及计算机可存储介质。所述方法包括:获取HTML文本;根据预设的内容抽取规则,在所述HTML文本中抽取预设类型的数据;根据在所述HTML文本中抽取的预设类型的数据,生成结构化数据。本发明预先设置内容抽取规则,利用该内容抽取规则,可以对HTML文本进行细粒度的结构化抽取,进而可以获得各种类型的数据,得到包含各种类型数据的结构化数据,抽取速度快,抽取精度高。

    一种引用识别方法、设备和计算机可存储介质

    公开(公告)号:CN108829659A

    公开(公告)日:2018-11-16

    申请号:CN201810418503.9

    申请日:2018-05-04

    Abstract: 本发明公开了一种引用识别方法、设备和计算机可存储介质。所述方法,包括:获取原创语料和候选语料;利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值;根据所述原创语料和所述候选语料的ROUGE值的大小,确定所述候选语料引用所述原创语料的程度。本发明解决了通过相似度比较算法不能识别部分引用的问题,本发明利用ROUGE算法,计算两个语料之间的ROUGE值,根据该ROUGE值可以识别出两个语料直接是否存在全部引用关系或者部分引用关系。

    一种仿人类复杂问题检索方法、电子设备及存储介质

    公开(公告)号:CN119782463A

    公开(公告)日:2025-04-08

    申请号:CN202411840111.3

    申请日:2024-12-13

    Abstract: 本发明提供了一种仿人类复杂问题检索方法、电子设备及存储介质,该方法包括:对原始问题语句进行拆解处理,以得到若干个原子问题语句;根据若干个原子问题语句之间的关联关系,确定若干个原子问题语句之间的执行顺序;根据每一原子问题语句对应的语句类型,确定每一原子问题语句对应的目标检索信源;根据若干原子问题语句之间的执行顺序,依次通过每一原子问题语句对应的目标检索信源,对该原子问题语句进行检索,得到每一原子问题语句对应的原始答复语句;对若干原始答复语句进行语义整合,得到原始问题语句对应的目标答复语句,以通过意图识别、问题拆解、逻辑规划、扩展生成以及动态执行等多个模块协同工作,有效解决了复杂问题的检索难题。

    基于大模型的海量负面信息检测方法、装置、设备及介质

    公开(公告)号:CN119005198A

    公开(公告)日:2024-11-22

    申请号:CN202411030867.1

    申请日:2024-07-30

    Abstract: 本公开涉及一种基于大模型的海量负面信息检测方法、装置、设备及介质。其中,基于大模型的海量负面信息检测方法包括:获取待检测文本,由目标机器学习模型对待检测文本进行分析输出第一结果,在第一结果为待检测文本对应的情感分析结果为非负面时,获取目标指令语句,由目标大语言模型基于目标指令语句对待检测文本进行情感分析,输出第二结果,将第二结果确定为待检测文本的检测结果,目标大语言模型的第一参数量高于目标机器学习模型的第二参数量,由此,能够通过不同参数量的机器学习模型和大语言模型结合的方式对待检测文本进行情感分析,确定待检测文本的检测结果,实现了在对待检测文本快速进行情感分析的基础上提高了情感分析的准确性。

    针对包含边框的视频拷贝检测方法及装置

    公开(公告)号:CN113971770B

    公开(公告)日:2024-10-29

    申请号:CN202010648949.8

    申请日:2020-07-07

    Abstract: 本发明涉及一种针对包含边框的视频拷贝检测方法及装置,该方法包括:从样本视频中抽取多个第一关键帧图像;基于图像边缘由外向内遍历第一关键帧图像,去除纯色像素点区域,得到多个非纯色像素点为边缘的第二关键帧图像;对第二关键帧图像进行二次遍历,去除纯色像素点个数大于第一阈值的图像区域;从每个第二关键帧图像中提取图像特征,得到多个第一多维图像特征向量;基于多个第一多维图像特征向量与视频库中存储的视频的多个第二多维图像特征向量建立索引,获取多个拷贝视频帧图像;根据时间信息,将多个拷贝视频帧图像进行整合,获得拷贝视频片段,由此,可以实现对视频中存在的多处拷贝视频片段的准确检测,并确定其在原视频中的位置。

    图片匹配方法、装置、电子设备以及存储介质

    公开(公告)号:CN112650867B

    公开(公告)日:2024-09-24

    申请号:CN202011561238.3

    申请日:2020-12-25

    Abstract: 本发明实施例公开了一种图片匹配方法、装置、电子设备以及存储介质。该方法包括:获取目标文本,基于预先训练的特征提取模型提取所述目标文本的文本特征信息;将所述文本特征信息与预设图库中各图片的图片特征信息进行匹配,其中,所述各图片的图片特征信息基于所述预先训练的特征提取模型对各图片提取得到,所述特征提取模型包括文本特征提取子模型、图片特征提取子模型以及分别与所述文本特征提取子模型、所述图片特征提取子模型连接的联合特征提取子模型;将与所述文本特征信息相匹配的图片确定为所述目标文本的匹配图片。通过本发明实施例公开的技术方案,实现了文本自动配图,提升文本的观感质量,激发读者的阅读兴趣,提升读者的阅读体验。

    评论生成模型训练方法和装置、信息生成方法和装置

    公开(公告)号:CN117591948B

    公开(公告)日:2024-09-03

    申请号:CN202410082714.5

    申请日:2024-01-19

    Abstract: 本公开提供了一种评论生成模型训练方法和装置,涉及人工智能技术领域,具体涉及自然语言处理、深度学习、大模型等技术领域。具体实现方案为:获取文本样本集,文本样本集包括:第一文本样本,第一文本样本包括:展示文本以及与展示文本相关的情感立场文本;获取预先构建的评论生成网络,评论生成网络包括:编码器和解码器,编码器分别对展示文本和情感立场文本进行建模,得到评论全局特征向量;解码器用于对评论全局特征向量进行解码,得到评论结果信息;将从文本样本集中选取的第一文本样本输入评论生成网络,得到评论生成网络输出的评论结果信息;基于评论结果信息,得到训练完成的评论生成模型。

Patent Agency Ranking