基于统计学和预训练语言模型的多标签文本分类方法

    公开(公告)号:CN112214599A

    公开(公告)日:2021-01-12

    申请号:CN202011121726.2

    申请日:2020-10-20

    Abstract: 本发明公开了一种基于统计学和预训练语言模型的多标签文本分类方法,包括以下步骤:S1、对需要分类的训练语料进行预处理;S2、建立基于统计学方法和语言模型的标签获取模型;S3、对获取的标签数据进行处理;S4、建立基于预训练语言模型的多标签分类模型,利用得到的标签数据进行模型训练;S5、使用训练好的多标签文本分类模型,对待分类的文本数据进行多标签分类。本发明提出一种结合了统计学方法与预训练语言模型标签获取方法,使用ALBERT语言模型来获取文本的语义编码信息,不需要人工标注数据集,能够提高获取标签的准确度。

    基于PCNN和多层注意力的远程监督关系分类方法

    公开(公告)号:CN110555084A

    公开(公告)日:2019-12-10

    申请号:CN201910792860.6

    申请日:2019-08-26

    Abstract: 本发明涉及一种基于PCNN和多层注意力的远程监督关系分类方法,属于信息技术领域;包括两个阶段,训练关系分类模型阶段和预测阶段;其中,训练关系分类模型阶段又包括:1)对关系分类模型的训练语料进行预处理;2)建立基于PCNN和Multi-level attention的关系分类模型,并训练模型参数;3)训练模型,优化模型参数;4)将训练好的关系分类模型保存;预测阶段为使用训练好的关系分类模型,对待预测的数据进行关系类别预测。本发明提出的算法能更精确的确定句子中实体之间的关系类型,为一些下游工作提供了一个良好的基础;既减少了许多数据标注的人力,又具备了较高的精确度。

    基于注意力机制和语言模型学习的中文命名实体识别方法

    公开(公告)号:CN109657239A

    公开(公告)日:2019-04-19

    申请号:CN201811517779.9

    申请日:2018-12-12

    Abstract: 本发明公开了一种基于注意力机制和语言模型学习的中文命名实体识别方法,该方法包括构建基于字的字典,对每个元素对应的ID号进行向量转换,通过restricted Self-attention层进行组合,通过第一层Bi-LSTM进行拼接组合并训练语言模型,通过第二层Bi-LSTM进行拼接组合并采用条件随机场方法进行标签预测训练,将数据集进行随机排列并采用Adam优化方法进行多轮训练,利用神经网络对待识别的文本数据进行中文命名实体识别。本发明只基于字的特征,不需要进行分词和其他的词性、句法等人工特征,提高了方法的健壮性和鲁棒性;而且本发明对未登录词表现良好,且性能优良,可以很好的提高下游任务的性能。

    产品二维码信息采集关联系统及其关联方法与自适应方法

    公开(公告)号:CN106742400A

    公开(公告)日:2017-05-31

    申请号:CN201611033692.5

    申请日:2016-11-17

    CPC classification number: B65B61/26 B65B57/04 B65B59/00 G06K17/00 G06K2017/009

    Abstract: 本发明公开了一种产品二维码信息采集关联系统,包括控制单元,传送带和至少一个扫描贴标机构;扫描贴标机构包括顺着传送带依次设置的扫描单元,剔除单元和打印单元;控制单元包括工控机和控制卡,扫描单元和打印单元与工控机电连接,剔除单元与控制卡电连接。比使用PLC等多个逻辑控制单元的装置结构更为简单、紧凑,减少了因不同逻辑单元间连接问题导致的学习、使用成本。本发明提供了一种产品二维码信息采集关联方法,在保证对包装进行准确关联和剔除的前提下有效减少数据库操作,提高追溯码有效性判断的精准度。本发明还提供一种产品二维码信息采集关联系统的自适应方法,只需一次安装便可适应不同包装尺寸的产品的生产需求。

Patent Agency Ranking