-
公开(公告)号:CN117150106B
公开(公告)日:2024-02-13
申请号:CN202311427537.1
申请日:2023-10-31
Applicant: 北京大学 , 北京大学重庆大数据研究院
IPC: G06F16/951 , G06F16/44 , G06F16/45 , G06F16/41 , G06F18/22
Abstract: 本申请公开了一种数据处理的方法、系统及电子设备。其中,该方法包括:获取数据采集请求,其中,数据采集请求中包含不同数据源的数据采集信息;依据数据采集信息,确定与数据源对应的数据采集类型,其中,数据采集类型包括以下至少之一:新闻类数据和社交媒体类数据;响应于数据采集请求,确定与数据采集类型对应的数据集合,其中,数据集合中包括多条数据;确定多条数据之间的属性差异,并根据属性差异对多条数据进行组合处理,其中,属性差异至少包括:多条数据之间的文本相似度差异;展示经过组合处理后的数据。本申请解决了相关技术中的数据采集对不同类型的数据会存在不支持的技术问题。
-
公开(公告)号:CN117150106A
公开(公告)日:2023-12-01
申请号:CN202311427537.1
申请日:2023-10-31
Applicant: 北京大学 , 北京大学重庆大数据研究院
IPC: G06F16/951 , G06F16/44 , G06F16/45 , G06F16/41 , G06F18/22
Abstract: 本申请公开了一种数据处理的方法、系统及电子设备。其中,该方法包括:获取数据采集请求,其中,数据采集请求中包含不同数据源的数据采集信息;依据数据采集信息,确定与数据源对应的数据采集类型,其中,数据采集类型包括以下至少之一:新闻类数据和社交媒体类数据;响应于数据采集请求,确定与数据采集类型对应的数据集合,其中,数据集合中包括多条数据;确定多条数据之间的属性差异,并根据属性差异对多条数据进行组合处理,其中,属性差异至少包括:多条数据之间的文本相似度差异;展示经过组合处理后的数据。本申请解决了相关技术中的数据采集对不同类型的数据会存在不支持的技术问题。
-
公开(公告)号:CN118227823A
公开(公告)日:2024-06-21
申请号:CN202410395729.7
申请日:2024-04-02
Applicant: 北京大学
IPC: G06F16/583 , G06V40/12 , G06V10/42 , G06V10/54 , G06T3/4038 , G06V10/82 , G06V10/80
Abstract: 本申请公开了一种基于指纹定长表征的指纹检索方法、装置及电子设备。其中,该方法包括:从图像中提取目标指纹的细节点感知指纹定长表征和细节点中心纹理特征;依据细节点中心纹理特征和目标指纹中的指纹细节点的位置信息确定目标指纹的细节点拓扑感知指纹定长表征,细节点拓扑感知指纹定长表征中包括细节点纹理特征信息和目标指纹的细节点拓扑特征信息;拼接细节点感知指纹定长表征和细节点拓扑感知指纹定长表征,得到目标指纹定长表征;检索与目标指纹定长表征对应的指纹集合。本申请解决了相关技术中在构建指纹的定长特征表示来进行指纹检索时由于未能充分利用指纹中的细节点信息导致检索准确率低的技术问题。
-
公开(公告)号:CN110489745B
公开(公告)日:2020-12-22
申请号:CN201910701668.1
申请日:2019-07-31
Applicant: 北京大学 , 重庆泛语科技有限公司
IPC: G06F40/205 , G06K9/62
Abstract: 本发明提供一种基于引文网络的论文文本相似性的检测方法,该方法在引文网络的基础上提出了基于书目耦合与语义指纹相结合的候选文档集过滤,在候选文档集上,基于词建立句子级别的倒排索引,进行相似句子检测与观点片段检测,生成相似文本,计算得到待检文档的复制比,从而判断出论文文本的相似性。本发明基于词向量的句子比对与观点检测,将词向量与同义词引入到文本相似性计算中,提升了句子相似性的计算效果且具有计算速度快的优点,能够检测出论文文本中可能涉及观点抄袭的文本片段。采用本发明不仅速度快,而且对词语替换、句子重组等形式的句子相似性检测具有好的效果。
-
公开(公告)号:CN110489745A
公开(公告)日:2019-11-22
申请号:CN201910701668.1
申请日:2019-07-31
Applicant: 北京大学 , 重庆泛语科技有限公司
Abstract: 本发明提供一种基于引文网络的论文文本相似性的检测方法,该方法在引文网络的基础上提出了基于书目耦合与语义指纹相结合的候选文档集过滤,在候选文档集上,基于词建立句子级别的倒排索引,进行相似句子检测与观点片段检测,生成相似文本,计算得到待检文档的复制比,从而判断出论文文本的相似性。本发明基于词向量的句子比对与观点检测,将词向量与同义词引入到文本相似性计算中,提升了句子相似性的计算效果且具有计算速度快的优点,能够检测出论文文本中可能涉及观点抄袭的文本片段。采用本发明不仅速度快,而且对词语替换、句子重组等形式的句子相似性检测具有好的效果。
-
-
-
-