-
公开(公告)号:CN117591661B
公开(公告)日:2024-04-26
申请号:CN202410076463.X
申请日:2024-01-18
Applicant: 之江实验室
IPC: G06F16/332 , G06F16/36 , G06F40/211 , G06F40/30 , G06N3/09 , G06N3/0895
Abstract: 本说明书公开了一种基于大语言模型的问答数据构建方法及装置,可以从知识图谱中提取出基础三元组以及从文档库中提取出文本素材,而后,可以根据文本素材,对基础三元组进行补充,得到三元组集合;针对三元组集合中的每个三元组,可以确定该三元组的关联三元组以及从文本素材中确定出该三元组的关联文本段落,以得到多源知识数据。而后,可以根据多源知识数据,生成问答数据,可以对生成的问答数据进行标注,从而通过半监督的方式训练识别模型,以通过识别模型从问答数据中筛选出有效的问答数据,筛选出的有效的问答数据可以用于对大语言模型进行训练或微调,从而本方法能够提到生成问答数据的效率和有效性。
-
公开(公告)号:CN117252153B
公开(公告)日:2024-02-02
申请号:CN202311532530.6
申请日:2023-11-17
Applicant: 之江实验室
IPC: G06F40/109 , G06F40/166 , G06F40/205
Abstract: 本发明涉及一种用于大语言模型的富文本数据处理方法、设备、存储介质,方法包括如下步骤:获取富文本数据,通过解析和/或识别得到文本数据及其对应的坐标;基于字体大小对所述文本数据对应的坐标进行单位化处理;以空格为元素构建字符矩阵,基于单位化处理后的坐标,将所述文本数据填充至所述字符矩阵的对应位置;将所述字符矩阵转换为包含空间信息的最终文本,作为大语言模型的输入。与现有技术相比,本发明整个处理过程类似于将整个富文本进行栅格化处理,可以对多种文档类型进行处理的同时,保留了原始富文本中的空间信息。
-
公开(公告)号:CN116860977B
公开(公告)日:2023-12-08
申请号:CN202311053620.7
申请日:2023-08-21
Applicant: 之江实验室
IPC: G06F16/35 , G06F16/34 , G06F18/2433 , G06F18/2135 , G06F18/2323
Abstract: 本发明公开了一种面向矛盾纠纷调解的异常检测系统及方法,包括:数据获取模块,获取原始表格数据;数据清洗模块,清洗数据获取有效数据;时序异常检测模块,从有效数据构建时序数据,对时序数据进行线性插值,并对其进行异常检测,得到异常时间段;主题聚类模块:从事项文本获取有效词向量,输入至文本聚类模型,提取事项的主题聚类结果;异常分析模块:对比异常时段与正常时段中事项主题分布的差异,进一步提取聚类主题,提取各聚类主题的关键词和摘要。本发明能够有效感知和汇聚近期异常的矛盾纠纷事件,为管理者提供异常报告,能够以数据驱动的方式提前感知问题,介入纠纷,避免纠纷(56)对比文件李存华.基于近似密度构造的聚类分析与离群点检测算法研究《.万方数据库》.2005,全文.Min Hu.Detecting Anomalies in TimeSeries Data via a Meta-Feature BasedApproach《.IEEE Access》.2018,全文.刘露;左万利;彭涛.异质网中基于张量表示的动态离群点检测方法.计算机研究与发展.2016,(第08期),全文.
-
公开(公告)号:CN117079480A
公开(公告)日:2023-11-17
申请号:CN202311328296.5
申请日:2023-10-13
Applicant: 之江实验室
Abstract: 本说明书公开了一种快速路上匝道交通信号灯的控制方法及装置,由于本说明书提供的快速路上匝道交通信号灯的控制方法是基于真实的交通状态数据来确定的,并且,通过构建出的交通状态变化因果图,明确确定出除上匝道以外的会对目标主干道的上游路段拥堵产生影响的混淆因子,以此来准确的确定出触发目标主干道的上游路段拥堵时目标主干道的上匝道处的临界车流量,从而通过这一临界车流量,可以对交通信号灯进行有效控制,使得目标主干道的上匝道的车流量维持在该临界车流量以下,以保证目标主干道的上游路段尽可能的不会出现拥堵情况,进而保证了交通的正常运行。
-
公开(公告)号:CN117033469A
公开(公告)日:2023-11-10
申请号:CN202311285986.7
申请日:2023-10-07
Applicant: 之江实验室
IPC: G06F16/2458 , G06F16/2453 , G06F16/248
Abstract: 在本说明书公开了一种基于表格语义注释的数据库检索方法、装置以及设备,根据训练完成的表格语义注释模型对数据库中各原始表格进行语义注释,得到第二语义注释表格,即确定原始表格中各实体单元格的语义以及该表格中各列的列类型。然后响应于用户的检索指令,对用户的检索指令进行文本预处理,并计算经过文本预处理后的检索指令与第二语义注释表格计算相似度,按照相似度从大到小的顺序筛选语义注释后的表格,将筛选出的第二语义注释表格对应的原始表格作为检索结果。使得数据库检索可根据表格的语义信息进行相似度匹配,提高了数据库检索的召回率和准确率。
-
公开(公告)号:CN116303625B
公开(公告)日:2023-07-21
申请号:CN202310557261.2
申请日:2023-05-17
IPC: G06F16/2455 , G06F16/22 , G06F16/901
Abstract: 本说明书公开了一种数据查询的方法、装置、存储介质及电子设备,获取原始数据表,根据预设的知识图谱,确定出原始数据表中包含的实体信息并标注,得到标注后数据表;将标注后数据表和知识图谱输入到预设的分类模型中,以使分类模型确定出原始数据表中各列数据对应的实体类型和原始数据表中各列数据对应的实体类型之间的关系,作为实体类型关系。根据实体类型关系以及标注后数据表中包含的实体信息,确定补充信息。通过补充信息,补充原始数据表,得到补充后数据表;接收数据查询请求,从数据查询请求中确定出用于描述用户需要查询的查询参考信息,以及根据查询参考信息和补充后数据表中包含的第一描述信息和/或第二描述信息,执行数据查询。
-
公开(公告)号:CN117591661A
公开(公告)日:2024-02-23
申请号:CN202410076463.X
申请日:2024-01-18
Applicant: 之江实验室
IPC: G06F16/332 , G06F16/36 , G06F40/211 , G06F40/30 , G06N3/09 , G06N3/0895
Abstract: 本说明书公开了一种基于大语言模型的问答数据构建方法及装置,可以从知识图谱中提取出基础三元组以及从文档库中提取出文本素材,而后,可以根据文本素材,对基础三元组进行补充,得到三元组集合;针对三元组集合中的每个三元组,可以确定该三元组的关联三元组以及从文本素材中确定出该三元组的关联文本段落,以得到多源知识数据。而后,可以根据多源知识数据,生成问答数据,可以对生成的问答数据进行标注,从而通过半监督的方式训练识别模型,以通过识别模型从问答数据中筛选出有效的问答数据,筛选出的有效的问答数据可以用于对大语言模型进行训练或微调,从而本方法能够提到生成问答数据的效率和有效性。
-
公开(公告)号:CN117390163A
公开(公告)日:2024-01-12
申请号:CN202311404467.8
申请日:2023-10-26
Applicant: 之江实验室
IPC: G06F16/332 , G06F16/33 , G06F16/338 , G06F16/36 , G06F16/28 , G06N5/022 , G06N5/04
Abstract: 本说明书公开了一种基于人工智能的事实验证方法,通过根据待验证的三元组生成搜素语句,并在预设的搜索引擎中对搜索语句进行搜索,筛选预设的搜索引擎返回的搜索结果,根据筛选出的搜索结果生成提示信息,然后再根据提示信息和待验证的三元组生成输入文本,使得人工智能对话系统可根据输入文本对待验证的三元组进行事实验证,接收人工智能对话系统返回的验证结果。根据确定提示信息对待验证的三元组进行验证,减少了人工智能对话系统编造问题答案的可能性,即解决了人工智能对话系统在进行对话时出现“幻觉”的问题,提高了事实验证任务的准确度和可信度。
-
公开(公告)号:CN117172316A
公开(公告)日:2023-12-05
申请号:CN202311126132.4
申请日:2023-09-01
Applicant: 之江实验室
IPC: G06N5/022
Abstract: 本说明书公开了一种基于实体对齐所得到的知识图谱进行任务执行的方法,具体包括:获取包含第一和第二知识图谱的知识图谱对,通过筛选第一知识图谱的实体信息,选取出各目标实体,根据各目标实体和各目标实体的邻接实体,以及各目标实体与第二知识图谱中部分实体的对齐概率确定各目标实体的中心度和不确定度,然后根据各目标实体的中心度和不确定度构建各样本实体对,利用各样本实体对对实体对齐模型进行训练,最后,利用训练后的实体对齐模型对各知识图谱进行实体对齐,并利用实体对齐后的知识图谱执行目标任务。本方法大幅降低了训练过程中的样本标注成本,提高了模型训练过程效率的同时,也显著提高了整体任务执行的效率。
-
公开(公告)号:CN116089414B
公开(公告)日:2023-09-08
申请号:CN202310372120.3
申请日:2023-04-10
Applicant: 之江实验室
IPC: G06F16/215 , G06F16/22 , G06F16/27
Abstract: 本发明公开了一种基于海量数据场景的时序数据库写入性能优化方法及装置,该方法包括:首先基于Apache Calcite将数据库读写请求对应的读写线程池分离,并建立独立的写任务线程池;然后通过哈希策略对写任务线程池中的写任务进行分片,并根据负载值对分片任务进行调度,以将写任务的数据写入集群中的节点;最后根据节点的写任务获取写入请求,为该写入请求分配内存数组,并基于海量时间线对写任务所需的内存进行动态分配,对写任务的数据进行刷盘。本发明能够缓解时序数据库写多读少场景下写线程被读线程阻塞的情形,本发明具有更好的集群负载均衡效果,增强了任务的并发度,有利于减少海量数据写入时的刷盘频率,提升写入效率。
-
-
-
-
-
-
-
-
-