一种低标注成本的嵌套实体识别方法及系统

    公开(公告)号:CN114547232A

    公开(公告)日:2022-05-27

    申请号:CN202111406140.5

    申请日:2021-11-24

    Abstract: 本发明提供了一种低标注成本的嵌套实体识别方法及系统,该方法包括:获取训练文本,对所述训练文本中的实体进行预标注,获得标注文本;从所述标注文本中提取正样本;对所述标注文本进行负采样,获得负样本集合,将所有所述正样本与至少一个负样本作为训练样本集,其中,所述负样本的类别标注为非实体类别;基于预训练语言模型处理所述训练样本集中的训练样本,获得语义编码,向所述语义编码中添加相对位置信息获得样本编码;将每个所述样本编码输入至全连接网络,使用分类模型进行多分类处理,获得第一训练结果,基于所述第一训练结果优化所述分类模型。保证在减少人工标注成本的前提下获得准确率高、鲁棒性好的预测模型。

    词汇自适应中文输入方法
    12.
    发明授权

    公开(公告)号:CN101995963B

    公开(公告)日:2012-07-04

    申请号:CN201010551084.X

    申请日:2010-11-19

    Abstract: 词汇自适应中文输入方法,本发明涉及一种计算机、手机、或者掌上电子产品等的词汇自适应的中文输入方法。它降低输入法的背景噪音,减少系统开销,实现个性化输入。它用于汉字输入。它包括下述步骤:输入汉语拼音字符串;进行音节切分;根据本地的通用词库中词的状态和已经加载到本地的领域专业词库的状态对音节串进行汉语语句转换;输出汉字字符串;搜索位于服务器端的领域专业词库并判断已输入汉语语句中是否包含位于服务器端的领域词库集中的词汇;如果存在这样的词汇,则将包含该词汇的领域专业词库加载到本地;根据选择确定的汉语语句输入,对位于本地的通用词库和已经加载到本地的领域专业词库中的词进行词汇状态调整。

    一种基于Top-n-gram的蛋白质远程同源性检测和折叠识别方法

    公开(公告)号:CN102043910A

    公开(公告)日:2011-05-04

    申请号:CN201010600321.7

    申请日:2010-12-22

    Abstract: 一种基于Top-n-gram的蛋白质远程同源性检测和折叠识别方法,涉及一种蛋白质远程同源性检测和折叠识别方法。本发明为了解决现有的蛋白质远程同源性检测和折叠识别方法中,二进制谱无法找到最优阈值,无法区分氨基酸出现频率的差别的问题。具体步骤:一、运行PSI-BLAST,输入测试蛋白质序列进行多序列比对,计算氨基酸i的伪计数;二、生成频率谱;三、将频率谱转化为Top-n-gram;四、获得测试蛋白质序列对应的潜在语义表达向量;五、将测试蛋白质序列对应的潜在语义表达向量输入SVM分类器进行分类,得到预测结果。应用于蛋白质同源性检测和折叠识别领域。

    一种基于大规模语言模型的电子装备变体设计方法

    公开(公告)号:CN119443000B

    公开(公告)日:2025-04-18

    申请号:CN202411575008.0

    申请日:2024-11-06

    Abstract: 一种基于大规模语言模型的电子装备变体设计方法,属于电子装备变体设计技术领域。为解决生成符合相应领域、功能要求的CBB模型的问题,本发明包括向通义千问模型提供生成目标电子装备CBB模型的命令;向通义千问模型中提供加入提示词命令;生成电子装备CBB模型,然后向通义千问模型输入文本命令,通义千问模型根据文本命令和电子装备CBB模型生成电子产品架构;得到文本特征作为电子装备变体数据集;采用中文版BERT模型作为电子装备变体设计Bert模型,然后基于Lora方法微调电子装备变体设计Bert模型,得到训练好的中文版BERT模型;根据模型文本特征的相关性,过滤掉无关的电子装备CBB模型。本发明正确性高。

    一种基于提示的用户跨域冷启动方法

    公开(公告)号:CN117422526B

    公开(公告)日:2024-07-26

    申请号:CN202311518835.1

    申请日:2023-11-15

    Abstract: 本发明公开了一种基于提示的用户跨域冷启动方法,包括:获取用户特有表征、用户通用表征和商品表征;通过用户特有表征和商品表征,获取场景提示向量;根据场景提示向量和用户通用表征,获取目标场景的特有表征,完成基于提示的用户跨域冷启动。本发明通过提出的场景提示生成方法,通过最大化目标场景的提示与目标场景中所有用户与商品之间的互信息的方式,对每个场景的特征进行全面捕捉;本发明中的基于场景提示的目标场景用户表征生成方法,通过考虑不同场景之间的关系以及每个场景的特征,在仅仅知道用户通用表征的情况下,依然可以实现在不同场景中对同一用户进行精准个性化推荐的效果,进而解决用户跨域冷启动问题。

    一种基于提示学习的隐性情感识别方法

    公开(公告)号:CN116757195B

    公开(公告)日:2024-06-14

    申请号:CN202310746692.3

    申请日:2023-06-25

    Abstract: 本发明公开了一种基于提示学习的隐性情感识别方法,包括以下步骤:获取情感文本进行主题识别,基于识别的主题,选择种子词对应的母类别;基于种子词对应的母类别,采用未标记评论的聚类和余弦相似度对所述种子词继续进行类别检测,获得所述种子词对应的子类别;构建提示模板,将所述种子词对应的子类别嵌入到所述提示模板中并进行训练,将训练后的提示模板与预训练语言模型相结合,识别出对应的隐性情感。本发明构建的提示模板相较于手工构建的模板可以更加匹配预训练语言模型,通过让下游任务主动适应大型预训练语言模型的方式提升学习效率。

    一种基于提示学习的自动化数据标注方法

    公开(公告)号:CN116738984B

    公开(公告)日:2024-03-01

    申请号:CN202310748270.X

    申请日:2023-06-25

    Abstract: 本发明公开了一种基于提示学习的自动化数据标注方法,包括:获取有标注数据集和无标注数据集;对所述有标注数据集的实体信息进行提取,获取实体词;基于所述实体词对所述无标注数据集进行筛选,获取筛选后的无标注数据集;构建提示模板组,基于预训练语言模型利用所述提示模板组对所述筛选后的无标注数据集进行测试,获取正向/负向数据;基于所述提示模板组将所述有标注数据集的中性情感数据输入所述预训练语言模型,获取填充完整的提示模板;基于所述填充完整的提示模板和所述正向/负向情感数据,构建完整的扩充数据集,实现基于提示学习的自动化数据标注。

    一种级联式作文生成方法

    公开(公告)号:CN107967257B

    公开(公告)日:2021-01-12

    申请号:CN201711160875.8

    申请日:2017-11-20

    Abstract: 本发明涉及一种级联式作文生成方法,是为了解决现有技术仅针对作文评分进行研究,未出现关于作文生成方法的研究,以及已有的主题分析技术很难对作文的题目进行分析的缺点而提出的。本发明用一个或多个话题词表示待生成作文的中心思想;得到话题词后,将作文生成分解为话题词扩充、句子抽取和篇章组织;话题词扩展后,利用句子抽取模块寻找与话题词相关的句子,并最终使用篇章组织模块对抽取获得的句子排序,使之成为连贯的整体。本发明还可以从已抽取的句子集合中挖掘词语对已有的话题词进行补充。本发明适用于自动作文生成。

    一种用于问答系统中的自动答案摘要方法及系统

    公开(公告)号:CN105740310B

    公开(公告)日:2019-08-02

    申请号:CN201510963623.3

    申请日:2015-12-21

    Abstract: 本发明提供一种用于问答系统中的自动答案摘要方法及系统,其包括:获得用户查询问题与问答系统返回的候选答案集;从问题中提取概念,将概念与问题建立映射,得到问题概念集,从候选答案句子中提取概念,将概念与句子建立映射,得到句子概念集,对所有句子的概念集取并集得到答案概念集;对问题概念集进行概念扩展、概念约减,得到问题扩展概念集,问题扩展概念集与答案概念集取交集获得命中概念集;对命中概念集中包含的概念进行句子质量计算,得到答案摘要。本发明利用概念网络中各个概念的关系,构建句子等权重,克服句子可能与问题无关的问题,然后通过整数规划的方法,选出答案中和问题最为相关的句子,构成最终的答案摘要。

    语句级汉字输入方法中的用户词识别方法与机器学习系统

    公开(公告)号:CN102004560B

    公开(公告)日:2013-07-24

    申请号:CN201010567997.0

    申请日:2010-12-01

    Abstract: 语句级汉字输入方法中的用户词识别方法与机器学习系统,涉及汉字输入的机器学习技术领域。本发明解决了现有机器学习方法中存在的经常需要用户干预才能够获得最终结果的问题。用户词识别方法是采用相对位置成词能力作为评价标准来识别用户词。学习方法仅在输入法输出的最优路径与最终输出路径不一致时才启动,该方法采用基于N元文法的概率计算方法获得概率值后,采用最大后验MAP获得用户调节值CA,该调节值CA和相应的词存入用户语言模型库。机器学习系统是应用上述用户词识别方法和学习方法实现的学习系统。采用本发明技术,能减少用户输入时的干预次数,让用户更轻松地得到需要的输出结果。

Patent Agency Ranking