数据处理的方法、系统及电子设备

    公开(公告)号:CN117150106B

    公开(公告)日:2024-02-13

    申请号:CN202311427537.1

    申请日:2023-10-31

    Abstract: 本申请公开了一种数据处理的方法、系统及电子设备。其中,该方法包括:获取数据采集请求,其中,数据采集请求中包含不同数据源的数据采集信息;依据数据采集信息,确定与数据源对应的数据采集类型,其中,数据采集类型包括以下至少之一:新闻类数据和社交媒体类数据;响应于数据采集请求,确定与数据采集类型对应的数据集合,其中,数据集合中包括多条数据;确定多条数据之间的属性差异,并根据属性差异对多条数据进行组合处理,其中,属性差异至少包括:多条数据之间的文本相似度差异;展示经过组合处理后的数据。本申请解决了相关技术中的数据采集对不同类型的数据会存在不支持的技术问题。

    数据处理的方法、系统及电子设备

    公开(公告)号:CN117150106A

    公开(公告)日:2023-12-01

    申请号:CN202311427537.1

    申请日:2023-10-31

    Abstract: 本申请公开了一种数据处理的方法、系统及电子设备。其中,该方法包括:获取数据采集请求,其中,数据采集请求中包含不同数据源的数据采集信息;依据数据采集信息,确定与数据源对应的数据采集类型,其中,数据采集类型包括以下至少之一:新闻类数据和社交媒体类数据;响应于数据采集请求,确定与数据采集类型对应的数据集合,其中,数据集合中包括多条数据;确定多条数据之间的属性差异,并根据属性差异对多条数据进行组合处理,其中,属性差异至少包括:多条数据之间的文本相似度差异;展示经过组合处理后的数据。本申请解决了相关技术中的数据采集对不同类型的数据会存在不支持的技术问题。

    中国作者所发英文文献的作者机构信息抽取方法

    公开(公告)号:CN104881398A

    公开(公告)日:2015-09-02

    申请号:CN201410437424.4

    申请日:2014-08-29

    Applicant: 北京大学

    Abstract: 一种中国作者所发英文文献的作者机构信息抽取方法,用于从英文文献库中抽取中国作者所在机构的中文名称信息,包括:利用网络爬虫从英文文献库中获取中国作者发表的所有相关英文论文的题录信息;从获取的题录信息中抽取出论文题目、作者机构信息和发表时间三项内容;对作者机构信息进行处理,将其对应到作者机构的标准中文名称;将抽取出的论文题目、发表时间,以及机构的标准中文名称保存到自建的数据库中,以供后续查询和统计使用。利用本发明所述的方法,在很大程度上保证了检索结果的准确性,并免去了手动查询、核对机构信息的过程。通过本发明,用户可以对机构所发表的英文文献信息进行查询和统计,具有很高的查全率和准确率。

    一种大语言模型生成中文论文模块的检测方法

    公开(公告)号:CN119886120A

    公开(公告)日:2025-04-25

    申请号:CN202311363657.X

    申请日:2023-10-20

    Abstract: 本发明公开了一种大语言模型生成中文论文模块的检测方法。针对中文论文,特别是人文社科类学术论文的摘要、引言、结论等论文模块,采集人类撰写的样本数据,并通过大语言模型生成样本数据,将这两种样本数据整合后,提取样本数据的文本结构特征和文本向量特征作为多维特征输入,以是否由大语言模型生成这一变量作为分类标签进行多模型分类训练,通过多模型融合提高检测的准确性。本发明方法可广泛应用于学术论文的各个结构模块的检测,能够较为准确地识别出由大语言模型生成的学术论文模块,具有很高的应用价值。

    中国作者所发英文文献的作者机构信息抽取方法

    公开(公告)号:CN104881398B

    公开(公告)日:2018-03-30

    申请号:CN201410437424.4

    申请日:2014-08-29

    Applicant: 北京大学

    Abstract: 一种中国作者所发英文文献的作者机构信息抽取方法,用于从英文文献库中抽取中国作者所在机构的中文名称信息,包括:利用网络爬虫从英文文献库中获取中国作者发表的所有相关英文论文的题录信息;从获取的题录信息中抽取出论文题目、作者机构信息和发表时间三项内容;对作者机构信息进行处理,将其对应到作者机构的标准中文名称;将抽取出的论文题目、发表时间,以及机构的标准中文名称保存到自建的数据库中,以供后续查询和统计使用。利用本发明所述的方法,在很大程度上保证了检索结果的准确性,并免去了手动查询、核对机构信息的过程。通过本发明,用户可以对机构所发表的英文文献信息进行查询和统计,具有很高的查全率和准确率。

Patent Agency Ranking