数据处理的方法、系统及电子设备

    公开(公告)号:CN117150106B

    公开(公告)日:2024-02-13

    申请号:CN202311427537.1

    申请日:2023-10-31

    Abstract: 本申请公开了一种数据处理的方法、系统及电子设备。其中,该方法包括:获取数据采集请求,其中,数据采集请求中包含不同数据源的数据采集信息;依据数据采集信息,确定与数据源对应的数据采集类型,其中,数据采集类型包括以下至少之一:新闻类数据和社交媒体类数据;响应于数据采集请求,确定与数据采集类型对应的数据集合,其中,数据集合中包括多条数据;确定多条数据之间的属性差异,并根据属性差异对多条数据进行组合处理,其中,属性差异至少包括:多条数据之间的文本相似度差异;展示经过组合处理后的数据。本申请解决了相关技术中的数据采集对不同类型的数据会存在不支持的技术问题。

    数据处理的方法、系统及电子设备

    公开(公告)号:CN117150106A

    公开(公告)日:2023-12-01

    申请号:CN202311427537.1

    申请日:2023-10-31

    Abstract: 本申请公开了一种数据处理的方法、系统及电子设备。其中,该方法包括:获取数据采集请求,其中,数据采集请求中包含不同数据源的数据采集信息;依据数据采集信息,确定与数据源对应的数据采集类型,其中,数据采集类型包括以下至少之一:新闻类数据和社交媒体类数据;响应于数据采集请求,确定与数据采集类型对应的数据集合,其中,数据集合中包括多条数据;确定多条数据之间的属性差异,并根据属性差异对多条数据进行组合处理,其中,属性差异至少包括:多条数据之间的文本相似度差异;展示经过组合处理后的数据。本申请解决了相关技术中的数据采集对不同类型的数据会存在不支持的技术问题。

    基于引文网络的论文文本相似性的检测方法

    公开(公告)号:CN110489745A

    公开(公告)日:2019-11-22

    申请号:CN201910701668.1

    申请日:2019-07-31

    Abstract: 本发明提供一种基于引文网络的论文文本相似性的检测方法,该方法在引文网络的基础上提出了基于书目耦合与语义指纹相结合的候选文档集过滤,在候选文档集上,基于词建立句子级别的倒排索引,进行相似句子检测与观点片段检测,生成相似文本,计算得到待检文档的复制比,从而判断出论文文本的相似性。本发明基于词向量的句子比对与观点检测,将词向量与同义词引入到文本相似性计算中,提升了句子相似性的计算效果且具有计算速度快的优点,能够检测出论文文本中可能涉及观点抄袭的文本片段。采用本发明不仅速度快,而且对词语替换、句子重组等形式的句子相似性检测具有好的效果。

    基于检索增强大语言模型的图书馆智能咨询服务系统

    公开(公告)号:CN118964534A

    公开(公告)日:2024-11-15

    申请号:CN202311761172.6

    申请日:2023-12-20

    Abstract: 本发明公开了一种基于检索增强大语言模型的图书馆智能咨询服务系统,通过语义向量化工具对读者输入的咨询问题以及事实知识、领域知识等文本内容进行向量化,然后根据读者输入的咨询问题检索相关事实知识和领域知识,调用大语言模型生成咨询回复语句,并显示给读者。本发明使用网站文本内容、管理规定文档、常见问题库等已有事实知识作为回答咨询问题的知识库,无需人工构造高质量问答知识库,节省了大量人力成本,降低了应用门槛;通过使大语言模型先学习领域知识、再结合事实知识回答咨询问题的方式,实现通用生成式大语言模型在图书馆智能咨询领域的应用。

    基于用户日志进行查询推荐的方法及系统

    公开(公告)号:CN102609433A

    公开(公告)日:2012-07-25

    申请号:CN201110422562.1

    申请日:2011-12-16

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于用户日志进行查询推荐的方法及系统,所述方法包括:根据用户日志中的数据集得到有效查询日志集合;选择典型查询串作为训练集,在有效查询日志集合中提取每个查询串的支持度、流行度、推荐度、共现度、相似度和关联度等六个特征指标,构建基于训练集的复合预测模型;对用户输入的查询串,提取候选查询串的六个特征指标,并将其作为变量输入到复合预测模型中,计算每一候选查询串与给定查询串的相关性大小,输出排序靠前的n个查询串;所述系统包括实现上述方法的数据准备模块、预测模型构建模块和处理输出模块。本发明充分利用搜索引擎用户日志,为用户推荐更加优质的查询串。

    一种大语言模型生成中文论文模块的检测方法

    公开(公告)号:CN119886120A

    公开(公告)日:2025-04-25

    申请号:CN202311363657.X

    申请日:2023-10-20

    Abstract: 本发明公开了一种大语言模型生成中文论文模块的检测方法。针对中文论文,特别是人文社科类学术论文的摘要、引言、结论等论文模块,采集人类撰写的样本数据,并通过大语言模型生成样本数据,将这两种样本数据整合后,提取样本数据的文本结构特征和文本向量特征作为多维特征输入,以是否由大语言模型生成这一变量作为分类标签进行多模型分类训练,通过多模型融合提高检测的准确性。本发明方法可广泛应用于学术论文的各个结构模块的检测,能够较为准确地识别出由大语言模型生成的学术论文模块,具有很高的应用价值。

    中国作者所发英文文献的作者机构信息抽取方法

    公开(公告)号:CN104881398B

    公开(公告)日:2018-03-30

    申请号:CN201410437424.4

    申请日:2014-08-29

    Applicant: 北京大学

    Abstract: 一种中国作者所发英文文献的作者机构信息抽取方法,用于从英文文献库中抽取中国作者所在机构的中文名称信息,包括:利用网络爬虫从英文文献库中获取中国作者发表的所有相关英文论文的题录信息;从获取的题录信息中抽取出论文题目、作者机构信息和发表时间三项内容;对作者机构信息进行处理,将其对应到作者机构的标准中文名称;将抽取出的论文题目、发表时间,以及机构的标准中文名称保存到自建的数据库中,以供后续查询和统计使用。利用本发明所述的方法,在很大程度上保证了检索结果的准确性,并免去了手动查询、核对机构信息的过程。通过本发明,用户可以对机构所发表的英文文献信息进行查询和统计,具有很高的查全率和准确率。

    基于引文网络的论文文本相似性的检测方法

    公开(公告)号:CN110489745B

    公开(公告)日:2020-12-22

    申请号:CN201910701668.1

    申请日:2019-07-31

    Abstract: 本发明提供一种基于引文网络的论文文本相似性的检测方法,该方法在引文网络的基础上提出了基于书目耦合与语义指纹相结合的候选文档集过滤,在候选文档集上,基于词建立句子级别的倒排索引,进行相似句子检测与观点片段检测,生成相似文本,计算得到待检文档的复制比,从而判断出论文文本的相似性。本发明基于词向量的句子比对与观点检测,将词向量与同义词引入到文本相似性计算中,提升了句子相似性的计算效果且具有计算速度快的优点,能够检测出论文文本中可能涉及观点抄袭的文本片段。采用本发明不仅速度快,而且对词语替换、句子重组等形式的句子相似性检测具有好的效果。

    中国作者所发英文文献的作者机构信息抽取方法

    公开(公告)号:CN104881398A

    公开(公告)日:2015-09-02

    申请号:CN201410437424.4

    申请日:2014-08-29

    Applicant: 北京大学

    Abstract: 一种中国作者所发英文文献的作者机构信息抽取方法,用于从英文文献库中抽取中国作者所在机构的中文名称信息,包括:利用网络爬虫从英文文献库中获取中国作者发表的所有相关英文论文的题录信息;从获取的题录信息中抽取出论文题目、作者机构信息和发表时间三项内容;对作者机构信息进行处理,将其对应到作者机构的标准中文名称;将抽取出的论文题目、发表时间,以及机构的标准中文名称保存到自建的数据库中,以供后续查询和统计使用。利用本发明所述的方法,在很大程度上保证了检索结果的准确性,并免去了手动查询、核对机构信息的过程。通过本发明,用户可以对机构所发表的英文文献信息进行查询和统计,具有很高的查全率和准确率。

    基于用户日志进行查询推荐的方法及系统

    公开(公告)号:CN102609433B

    公开(公告)日:2013-11-20

    申请号:CN201110422562.1

    申请日:2011-12-16

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于用户日志进行查询推荐的方法及系统,所述方法包括:根据用户日志中的数据集得到有效查询日志集合;选择典型查询串作为训练集,在有效查询日志集合中提取每个查询串的支持度、流行度、推荐度、共现度、相似度和关联度等六个特征指标,构建基于训练集的复合预测模型;对用户输入的查询串,提取候选查询串的六个特征指标,并将其作为变量输入到复合预测模型中,计算每一候选查询串与给定查询串的相关性大小,输出排序靠前的n个查询串;所述系统包括实现上述方法的数据准备模块、预测模型构建模块和处理输出模块。本发明充分利用搜索引擎用户日志,为用户推荐更加优质的查询串。

Patent Agency Ranking