构建异构数据仓库的实现方法
    1.
    发明公开

    公开(公告)号:CN118885523A

    公开(公告)日:2024-11-01

    申请号:CN202410905229.3

    申请日:2024-07-08

    摘要: 本申请提出一种构建异构数据仓库的实现方法,步骤1、对异构数据源进行类型识别,以通过数据模式映射的方式,获取数据资产导入维度描述以及度量体系描述;步骤2、基于设置的异构数据整合策略库,根据所述数据资产导入维度描述以及度量体系描述,将数据业务交易动态过程转化为动态事实表;步骤3、基于构建的异构数据ETL模版,根据所述动态事实表,生成并行增量ETL任务;步骤4、根据所述并行增量ETL任务,通过搭建的异构数据访问接口,访问所述异构数据源以获取待处理异构数据资产进行处理,以构建异构数据仓库。

    一种基于大模型的合成数据质量评估方法

    公开(公告)号:CN118643806B

    公开(公告)日:2024-10-11

    申请号:CN202411105899.3

    申请日:2024-08-13

    IPC分类号: G06F40/16 G06F18/21

    摘要: 本发明涉及数据处理技术领域,具体涉及一种基于大模型的合成数据质量评估方法,包括:采集大模型的合成文本数据,量化得到若干分词及其词向量;得到训练样本数据每个样本分词的词向量和词性;得到每个样本分词的每个参考分词与对应样本分词的词性联系程度;获取每个样本分词的分词前参考分词集合和分词后参考分词集合;得到每条合成文本的每个分词的分词前参考分词集合的词性分布向量与分词后参考分词集合的词性分布向量;得到每条合成文本的整体置信度;得到筛选后的文本数据;基于筛选后的文本数据进行大模型合成文本数据的整体质量评估。本发明对文本数据向量化过程进行改进,提高了大模型合成数据质量评估的准确性。

    基于标准的数据资产治理方法
    4.
    发明公开

    公开(公告)号:CN118886647A

    公开(公告)日:2024-11-01

    申请号:CN202410905232.5

    申请日:2024-07-08

    摘要: 本申请提出一种基于标准的数据资产治理方法,包括提取数据治理流程的环节描述以及环节ID;访问数据资产流程依赖的标准库,以从中获取约束数据治理流程的标准文件描述以及标准文件ID;对环节描述与标准文件表述进行注意力分析,得到标准遵从性匹配图;根据标准遵从性匹配图,构建标准元数据模型,并对标准元数据模型进行编码得到标准映射表,以构建标准数据治理规则引擎;针对数据化治理组织架构进行角色分配,并建立分配的角色与环节描述之间的工作流控制模型;建立工作流控制模型和标准数据治理规则引擎之间的对象协同映射框架,以根据对象协同映射框架执行标准的数据资产治理任务。

    应用于人工智能中的基于同态加密和明文计算技术的数据计算与交换共享方法

    公开(公告)号:CN117910018B

    公开(公告)日:2024-08-09

    申请号:CN202410132144.6

    申请日:2024-01-31

    摘要: 本申请提出一种应用于人工智能中的基于同态加密和明文计算技术的数据计算与交换共享方法,通过访问异构数据源并进行同构处理,将不同数据源的数据对齐,使得数据在交换和共享过程中具有更好的兼容性,从而解决不同数据源之间数据格式和结构的差异,使得数据能够在各种系统和应用之间无缝共享。另外,根据异构数据源的地址生成分页标识,将数据按照分页的方式进行存储。这种存储方式可以提高数据的检索和访问效率,同时也有利于数据的并行处理。再者,对对齐后的待处理异构数据进行并行同态加密处理,可以有效地提高加密的效率,充分利用计算资源,加快数据加密速度,从而缩短数据交换和共享的时间。最后,在响应应用于人工智能中的基于同态加密和明文计算技术的数据计算与交换共享请求时,通过加密传输链路进行传输,可以确保数据在传输过程中的安全性,防止数据被窃取、篡改或泄露,从而保护数据的隐私性和完整性。

    基于智能大模型的第三方模块数据实时监控方法及系统

    公开(公告)号:CN117541269A

    公开(公告)日:2024-02-09

    申请号:CN202311675496.8

    申请日:2023-12-08

    摘要: 本发明涉及互联网信息监控技术领域,本发明公开了基于智能大模型的第三方模块数据实时监控方法及系统,方法包括:获取当前页面信息,以及初始置信度;对当前页面信息进行内容比较,得到内容比较数据;以及对无量纲化后的内容比较数据与初始置信度进行处理计算,得到对应第三方模块的行为隶属度;判断行为隶属度是否大于预设隶属度阈值,若隶属度大于预设隶属度阈值,则对当前页面信息进行信息提取,以获取待识别数据;根据所述当前页面的待识别数据和预配置违规识别大模型进行识别,以获取违规识别结果;将违规行为反馈至开放平台;本发明有利于对易违规的第三方模块进行重点监控。

    基于云原生技术的大数据组件管理装置及方法

    公开(公告)号:CN118312240B

    公开(公告)日:2024-11-05

    申请号:CN202410535158.2

    申请日:2024-04-30

    IPC分类号: G06F9/445 G06F9/48 G06F9/50

    摘要: 本申请提出的基于云原生技术的大数据组件管理装置及方法,装置包括:描述文件配置模块用于配置大数据组件描述文件;组件运行模版配置模块用于配置运行大数据组件的运行配置模版文件,运行配置模版文件至少包括大数据组件的运行参数以及配置信息;负载描述模版配置模块用于配置大数据组件工作时的负载描述模版文件;组件运行配置模块用于根据大数据组件描述文件和运行配置模版文件生成大数据组件运行时所需的配置文件;配置文件分发模块用于将大数据组件运行时所需的配置文件分发到多个待部署的物理服务器上,以生成在多个待部署的物理服务器上部署大数据组件的依据描述文件,以使得在各个待部署的物理服务器布局的大数据组件具有配置一致性特征。

    用于特殊公文的大模型生成数据可靠性检测方法及系统

    公开(公告)号:CN118643803A

    公开(公告)日:2024-09-13

    申请号:CN202411105833.4

    申请日:2024-08-13

    摘要: 本发明涉及数据处理技术领域,具体涉及用于特殊公文的大模型生成数据可靠性检测方法及系统。方法包括:获取会议内容和利用大模型生成的会议记录,并获取对应的词向量;分析会议内容的词向量与语料库中的词向量的相似情况,筛选直接相关词向量;结合直接相关词向量与非直接相关词向量之间的相似情况以及位置分布特征,筛选间接相关词向量;基于每种特征词向量对应的词语在文章中的相对位置关系以及出现的次数,得到每种特征词向量的核心程度值,特征词向量包括直接相关词向量和间接相关词向量;融合会议记录的每个词向量在语料库中出现的次数和核心程度值,对会议记录的可靠性进行评价。本发明提高了大模型生成数据可靠性检测结果的准确度。

    基于通信系统大模型的AI客服合成信息可靠性评测方法

    公开(公告)号:CN118643802A

    公开(公告)日:2024-09-13

    申请号:CN202411105793.3

    申请日:2024-08-13

    摘要: 本发明涉及电数字数据处理技术领域,具体涉及基于通信系统大模型的AI客服合成信息可靠性评测方法。该方法获取通信系统大模型的输入分词和合成分词;根据输入分词与其预设邻域分词在相关语料库的词频差异,获取输入分词的错误程度;根据输入分词在相关语料库的词向量和匹配词的词向量,以及错误程度,获取输入分词在相关语料库的修正词向量,进而获取相关语料库的关键词;根据合成分词与关键词的相似情况,获取通信系统大模型的AI客服合成信息可靠性的测试评估值。本发明通过确定修正词向量,进而准确获取关键词,降低了错误的输入分词带来的影响,准确对通信系统大模型的AI客服合成信息的可靠性进行分析。