一种基于形态学增强的张量化词嵌入压缩系统

    公开(公告)号:CN115481645A

    公开(公告)日:2022-12-16

    申请号:CN202211268116.4

    申请日:2022-10-17

    Abstract: 本发明公开了一种基于形态学增强的张量化词嵌入压缩系统,该模型包括语素分割模块、语素索引及嵌入模块、词嵌入生成模块;所述语素分割模块将文本任务的词表中每个词分割成语素,所述语素索引及嵌入模块首先统计语素分割模块的分割结果生成语素表,接着定义语素索引矩阵和多个可训练的语素嵌入矩阵,语素索引矩阵每一行代表词表中对应单词的语素在语素表中的位置,语素嵌入矩阵的每一行代表语素表中对应语素的嵌入向量;词嵌入生成模块对词表中每个词,从语素嵌入矩阵中索引出语素向量并进行张量积,多个张量积的结果相加生成词嵌入向量;本发明克服了一般词嵌入技术参数量及存储空间占用大的问题,以及高倍压缩词嵌入时任务效果损失的问题。

    摘要生成方法、装置、设备及介质

    公开(公告)号:CN114722836B

    公开(公告)日:2022-09-02

    申请号:CN202210516005.4

    申请日:2022-05-12

    Inventor: 赵菲菲

    Abstract: 本公开涉及一种摘要生成方法、装置、设备及介质,在获取多个目标文本后,能够从与语义距离相关的多个视角提取每个目标文本的文本特征;并基于文本特征,对多个目标文本进行议题聚类,得到多个第一文本集合,进而针对各个第一文本集合分别进行议题摘要的抽取,由于用于对目标文本进行议题聚类的文本特征具有与语义距离相关的多个视角类型,使得进行议题聚类时所参考的信息特征比较丰富,能够从多个视角综合的对多个目标文本进行议题聚类,提高了议题聚类的准确性,进而使得抽取到的议题摘要也更加准确、有效。

    办税异常绑定行为的检测方法、装置、设备及存储介质

    公开(公告)号:CN114723542A

    公开(公告)日:2022-07-08

    申请号:CN202210369630.0

    申请日:2022-04-08

    Abstract: 本公开涉及一种办税异常绑定行为的检测方法、装置、设备及存储介质,其中方法包括:获取企业办税人的办税绑定行为数据;对所述办税绑定行为数据进行特征提取处理,得到与所述企业办税绑定行为相关的特征;将所述特征输入预设的企业绑定行为风险量化模型,基于所述企业绑定行为风险量化模型对所述企业进行异常办税绑定行为检测。本公开基于企业绑定行为风险量化模型进行异常办税绑定行为检测,考虑了办税绑定行为数据中风险特征的提取及量化,提升了泛化性能和普适性,减少了检测方案对个人领域经验的依赖,并提高了异常办税绑定行为检测的准确率和检测效率。

    文本热点提取方法及装置
    45.
    发明公开

    公开(公告)号:CN110134942A

    公开(公告)日:2019-08-16

    申请号:CN201910260924.8

    申请日:2019-04-01

    Abstract: 本发明实施例涉及一种文本热点提取方法及装置,包括:采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理,得到多个第一短文本数据;采用依存句法分析算法将第二短文本数据生成对应的第四短文本数据;将第三短文本数据和第四文短本数据进行向量化处理,得到对应的多个文本向量;基于相似度算法确定任意两个文本向量之间的相似度;将相似度大于相似度阈值的两个文本向量进行合并处理,句法分析抽取关系词而组成的短句提高了信息抽取的可观性和准确度,让用户可以更好的理解文本内容从而获取核心关键信息点,通过Word2vec将短句向量化进行相似度对比,保留词语之间的语义信息,从而保证了排重工作的准确性,尽可能的避免了热点信息的冗余。

    基于集成学习的命名实体识别方法、装置、设备和介质

    公开(公告)号:CN113051918B

    公开(公告)日:2024-05-14

    申请号:CN201911368962.1

    申请日:2019-12-26

    Abstract: 本发明公开了一种基于集成学习的命名实体识别方法、装置、设备和介质。该方法包括:将待识别的文本序列输入预先集成训练的命名实体识别模型;在命名实体识别模型中集成有多个基学习器并且每个基学习器对应一个权重;通过多个基学习器分别对输入的文本序列执行命名实体识别,得到每个基学习器输出的初始识别结果;根据每个基学习器输出的初始识别结果以及每个基学习器对应的权重,确定并输出文本序列的最终识别结果。本发明在命名实体识别模型中集成多个基学习器,并且集成训练多个基学习器,这使得命名实体识别模型的复杂度较低,降低了命名实体识别的耗时,提升了命名实体识别的时效性,也使得模型的训练过程简单易行。

    实体关系抽取方法、装置及存储介质

    公开(公告)号:CN115688773A

    公开(公告)日:2023-02-03

    申请号:CN202110857375.X

    申请日:2021-07-28

    Abstract: 本申请涉及一种实体关系抽取方法、装置及存储介质,所述方法包括:利用已训练的关系抽取模型从待抽取的目标语料中抽取目标关系;基于所述目标关系从所述目标语料中抽取目标实体对;利用所述目标关系和所述目标实体对构建所述目标语料对应的实体关系三元组。由此,可以实现先抽取目标语料中的目标关系,然后再基于目标关系抽取目标语料中的实体对,这相较于现有技术而言,可以避免在进行关系判断时,引入并无关系的实体对这一冗余信息,从而提高实体关系抽取结果的准确性。

Patent Agency Ranking