获取新词的方法和装置
    1.
    发明公开

    公开(公告)号:CN101539940A

    公开(公告)日:2009-09-23

    申请号:CN200910083143.2

    申请日:2009-05-04

    Abstract: 本发明实施例公开了一种获取新词的方法和装置,属于计算机技术领域。所述方法包括:根据输入法词典获取专业领域的专业用户;从所述输入法词典获取所述专业用户使用的词,将所述获取的词作为所述专业领域的侯选词,所述输入法词典用于存储用户使用的词,所述用户包括专业用户和普通用户;根据所述专业用户和所述普通用户使用所述候选词的频率情况从所述候选词中获取侯选新词;将所述侯选新词与所述专业领域词典中的词进行比较,确定所述专业领域词典中不存在的侯选新词为新词。所述装置包括:第一获取模块、第二获取模块、第一确定模块和第二确定模块。本发明实施例获取专业领域的新词、提高算法效率,增加实用性。

    类案检索数据增广方法和装置
    2.
    发明公开

    公开(公告)号:CN119046402A

    公开(公告)日:2024-11-29

    申请号:CN202410880454.6

    申请日:2024-07-02

    Applicant: 清华大学

    Abstract: 本发明提供一种类案检索数据增广方法和装置,包括:基于大语言模型对待处理事实数据进行关键事实提取,得到案件描述;利用词性标注工具对所述案件描述进行实体名匿名化处理,得到查询数据,根据所述查询数据和所述待处理事实数据组成查询‑候选对;提取预先构建的样本案件库内的样本案件中的辅助信息,对于所述查询‑候选对,根据所述辅助信息将所述样本案件和所述待处理事实数据进行匹配,得到相似案件;将所述相似案件作为键,将所述查询数据作为查询,得到类案检索训练数据。本发明借助和词性标注工具对待处理事实数据进行概括,标注成本低,同时,利用辅助信息进行知识驱动的数据增广,更加贴近普通用户日常使用场景。

    文本后门攻击方法和装置

    公开(公告)号:CN114021119B

    公开(公告)日:2024-07-26

    申请号:CN202111200034.1

    申请日:2021-10-14

    Applicant: 清华大学

    Abstract: 本发明提供一种文本后门攻击方法和装置,其中,方法包括:获取测试样本;将所述测试样本输入注入后门的受害模型中,得到所述测试样本的判断结果;其中,所述插入后门的受害模型是通过下述方法获得:确定一个特定的文本风格作为后门攻击的触发特征;将待投毒样本进行文本风格迁移,得到具有所述触发特征的训练样本;根据所述训练样本对受害模型训练,得到注入后门的受害模型。本发明通过上述步骤可以研究文本后门攻击技术,可以检测自然语言处理模型的安全性和鲁棒性,管控自然语言处理模型投入实际应用的风险。

    基于词典的义原知识库构建方法及装置

    公开(公告)号:CN113505232B

    公开(公告)日:2024-07-23

    申请号:CN202110497062.8

    申请日:2021-05-07

    Applicant: 清华大学

    Abstract: 本发明提供一种基于词典的义原知识库构建方法及装置,该方法包括:根据目标语言词典的受控词表,构建义原集合;根据所述目标语言词典中每个词语的义项,得到每个义项的释义对应的释义词语集合;根据所述义原集合,对所述释义词语集合进行义原抽取,并根据义原抽取结果,构建所述目标语言词典对应的义原知识库。本发明通过目标语言的词典及该词典对应的受控词表,可高效经济地为目标语言自动构建义原知识库,解决人工构造义原知识库费时费力的问题,具有良好的实用性。

    基于生成对抗网络的甲骨文单字风格迁移方法及装置

    公开(公告)号:CN113516583B

    公开(公告)日:2024-07-19

    申请号:CN202110654014.5

    申请日:2021-06-11

    Applicant: 清华大学

    Abstract: 本发明提供一种基于生成对抗网络的甲骨文单字风格迁移方法及装置,该方法包括:确定待处理的汉字图片以及汉字图片对应的类别标签;将类别标签输入至第一生成对抗网络模型进行甲骨文单字风格迁移,得到类别标签对应的第一甲骨文图片;若不存在类别标签对应的第一甲骨文图片,将汉字图片输入至第二生成对抗网络模型进行甲骨文单字风格迁移,得到汉字图片对应的第二甲骨文图片;其中,第一生成对抗网络模型是基于第一甲骨文图片样本、噪声数据以及类别标签进行训练得到的;第二生成对抗网络模型是基于汉字图片样本和第二甲骨文图片样本训练得到的。本发明通过将汉字图片或对应的类别标签输入至生成对抗网络模型,实现汉字图片到甲骨文图片的转换。

    自动显存调优的模型并行训练方法、装置及设备

    公开(公告)号:CN118297113A

    公开(公告)日:2024-07-05

    申请号:CN202410368453.3

    申请日:2024-03-28

    Applicant: 清华大学

    Abstract: 本发明涉及深度学习领域,公开了一种自动显存调优的模型并行训练方法、装置及设备,该方法包括:将显存调优方案与模型并行训练框架结合;将显存调优方案的通信时间与模型的计算时间进行重叠处理;在重叠处理后,确定模型的开关选择方案,基于不同开关选择方案对模型进行性能预测;基于动态规划算法,根据性能预测结果和机器显存容量调优,确定最优开关选择方案。本发明解决了如何根据硬件资源条件,动态调优选择最优的训练策略,同时仍保持较高速的训练速度问题。

    神经网络训练的方法、神经网络的压缩方法以及相关设备

    公开(公告)号:CN112183747B

    公开(公告)日:2024-07-02

    申请号:CN202011057004.5

    申请日:2020-09-29

    Abstract: 本申请涉及人工智能领域中的神经网络的压缩技术,公开了一种神经网络训练的方法。包括:将第一训练数据输入第一特征提取网络,得到与第一训练数据对应的N个第一特征信息,计算指示N个第一特征信息的数据分布规律的第一分布信息,通过第一神经网络对第一特征提取网络进行剪枝,将第一训练数据输入剪枝后的第一特征提取网络,得到与第一训练数据对应的N个第二特征信息,计算指示N个第二特征信息的数据分布规律的第二分布信息,根据指示第一分布信息和第二分布信息的相似度的第一损失函数,对第一神经网络进行训练。提供了执行剪枝操作的神经网络的训练方法,剪枝前后得到的特征信息的数据分布规律类似,保证剪枝后的特征提取网络的性能。

    模型参数调整方法、装置、设备及计算机可读存储介质

    公开(公告)号:CN116644791A

    公开(公告)日:2023-08-25

    申请号:CN202210134765.9

    申请日:2022-02-14

    Abstract: 本申请提供了一种模型参数调整方法、装置、设备及计算机可读存储介质;方法包括:获取训练好的预训练模型和所述训练好的预训练模型的待调整参数的第一参数维度;获取训练好的第一网络模型和预训练好的参数调整向量;其中,参数调整向量的参数个数小于待调整参数的参数个数;基于目标任务和训练好的第一网络模型对预训练好的参数调整向量继续训练,得到训练好的参数调整向量;基于训练好的第一网络模型和训练好的参数调整向量确定待调整参数的调整值;基于待调整参数的调整值对训练好的预训练模型的参数进行调整,得到所述目标任务对应的训练好的目标模型。通过本申请,能够提高模型参数的调整效率。

    语句实体处理方法、装置、计算机设备及存储介质

    公开(公告)号:CN115129862A

    公开(公告)日:2022-09-30

    申请号:CN202210374003.6

    申请日:2022-04-11

    Abstract: 本申请公开了语句实体处理方法、装置、计算机设备及存储介质,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景,该方法包括:识别目标语句中包括的实体;确定目标语句对应的第一待处理数据,该第一待处理数据包括目标语句以及该实体的位置标记信息;调用实体分类模型对第一待处理数据进行处理,得到该实体的实体类型信息,该实体分类模型是基于训练样本集中的正例、负例以及实体类型标签进行对比学习得到的,该训练样本集包括原始训练样本以及该原始训练样本对应的翻译训练样本。通过本申请,能够在多语言低资源场景下实现实体分类,提高实体分类的准确性。

Patent Agency Ranking