用于文本聚类的方法、装置、电子设备及存储介质

    公开(公告)号:CN118503423A

    公开(公告)日:2024-08-16

    申请号:CN202410618938.3

    申请日:2024-05-17

    摘要: 本公开涉及数据分析的技术领域,公开了一种用于文本聚类的方法、装置、电子设备及存储介质,方法包括:基于数据集中每条文本的数值向量,计算文本之间的相似度;基于文本之间的相似度对数据集中的文本进行排序,其中,每个文本成为起始聚类中心的潜力与该文本的排名高低成正相关;针对数据集循环执行以下操作:将数据集中排名最高的文本作为起始聚类中心,搜索出与起始聚类中心的相似度大于或等于第一阈值的文本;将起始聚类中心、以及与起始聚类中心的相似度大于或等于第一阈值的文本作为一个聚类集合,并将聚类集合移出数据集。以上方法可以提高聚类效率,能够高效地完成文本聚类。

    用于大语言模型的构建方法及装置、问答方法、电子设备

    公开(公告)号:CN118485148A

    公开(公告)日:2024-08-13

    申请号:CN202410639009.0

    申请日:2024-05-22

    发明人: 杨溯源 卫海天

    IPC分类号: G06N5/04 G06N20/00

    摘要: 本申请涉及模型构建技术领域,公开了一种用于大语言模型的构建方法及装置、问答方法、电子设备。方法包括:以经过有监督微调后得出的大语言模型作为参考模型和策略模型;将训练数据集分批次输入到参考模型和策略模型,并根据当前批次参考模型和策略模型的输出数据计算目标损失值;在目标损失值大于设定损失值的情况下,根据目标损失值调整策略模型的超参数,并将下一批次的训练数据集输入到参考模型和调整后的策略模型;在目标损失值小于或者等于设定损失值时,将当前批次的策略模型作为目标大语言模型。本申请可以减少偏好对齐训练过程中对显存的占用,以及简化偏好对齐训练的流程,从而简化构建大语言模型的流程。

    基于WLLR计算字向量的方法、装置、设备及存储介质

    公开(公告)号:CN113255336B

    公开(公告)日:2024-08-09

    申请号:CN202110552807.6

    申请日:2021-05-20

    发明人: 梁吉光 徐凯波

    摘要: 本申请公开了一种基于WLLR计算字向量的方法、装置、设备及存储介质,所述方法包括如下步骤:词典构建步骤:构建词典;字典构建步骤:将所述词典中的词进行拆分,构建字典,获取所述字典中需要计算字向量的目标字;共现关系统计步骤:统计所述目标字所构成的目标词语,所述目标词语由所述目标字和其它字构成,根据所述词典统计所述目标字与每个所述其它字的共现关系;字与字WLLR值计算步骤:根据所述共现关系,计算所述目标字与每个所述其它字的WLLR值;字向量计算步骤:根据所述目标字与每个所述其它字的WLLR值计算所述目标字的所述字向量。通过本申请,可基于WLLR由预训练词向量模型计算字向量。

    一种基于GlusterFS的文件存储方法及系统

    公开(公告)号:CN112749136B

    公开(公告)日:2024-04-19

    申请号:CN202110081513.X

    申请日:2021-01-21

    发明人: 杨晓婕 刘远 郭镔

    摘要: 本发明提出一种基于GlusterFS的文件存储方法及系统,在计算所得的原始哈希卷的存储空间不足以存储大文件时,选取负载最小的节点来存储该文件,当负载较小的哈希卷仍然不能存储该大文件时,可利用P2P系统的负载均衡策略移动已存储的文件来为该大文件腾出空间,这保证了文件存储的完整性,不但解决了分块存储带来的单点故障问题,而且大大缩短了文件读写所需的时间同时降低了系统协调的复杂性。

    文件完整性的校验方法及系统

    公开(公告)号:CN112084535B

    公开(公告)日:2023-12-12

    申请号:CN202010864237.X

    申请日:2020-08-25

    发明人: 王亚林

    IPC分类号: G06F21/64

    摘要: 本发明公开了一种文件完整性的校验方法及系统,所述校验方法包括:步骤S1:在多个zookeeper集群中的每一zookeeper上创建传输文件列表并对传输文件列表设置传输完成标记;步骤S2:依次获取每一zookeeper上任意一时刻的传输文件列表;步骤S3:对传输文件列表进行检验后获得该时刻尚未传输完成的文件集合。本发明实现了在使用zookeeper的树形结构进行文件完整性校验时,能够同时通过多个zookeeper进行文件完整性的校验。

    用于语音转写的方法、装置、开发平台和存储介质

    公开(公告)号:CN116863922A

    公开(公告)日:2023-10-10

    申请号:CN202310652136.X

    申请日:2023-06-02

    摘要: 本申请涉及深度学习技术领域,公开一种用于语音转写的方法,包括:利用已配置的语音转写模型对测试语音进行识别和转写,并将转写结果呈现给所述用户;在转写结果不满足所述用户需求的情况下,对语音转写模型进行调整;在转写结果满足所述用户需求的情况下,发布语音转写模型;基于发布的语音转写模型,进行语音转写。相较于相关技术,本申请是把语音转写模型部署于平台化配置,基于用户需求进行开发,从而使得让用户也参与了开发和测试的过程。让用户可以更加快速的提出建议,也方便开发人员进行优化,进而大大缩短交付周期,提高开发效率。本申请还公开一种用于语音转写的装置、开发平台和存储介质。