-
公开(公告)号:CN111581970B
公开(公告)日:2023-01-24
申请号:CN202010396183.9
申请日:2020-05-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/289 , G06F40/30 , G06F40/126 , G06F40/216 , G06N3/048 , G06N3/09
Abstract: 本发明提出了一种网络语境的文本识别方法、装置及存储介质,该方法包括:基于文本长窗口构建风格语义模型,基于文本短窗口构建偏旁级语义模型;使用网络语境的语料库基于风格语义模型向量模型和偏旁级语义模型训练得到网络语境的中文词向量模型;使用所述网络语境的中文词向量模型对输入的网络语境的文本进行识别并输出识别结果。本发明在分词时使用两个不同窗口,长窗口用于提取网络化风格的语义信息,文本短窗口用于提取不同细粒度的语义特征,在训练阶段将二者结合,获得更加准确的词向量表达,以提高网络语境的文本识别率,本发明优化了目标函数,使得模型训练速度加快,在训练时,还建立了部首转义的方法,从而提高了文本的识别率。
-
公开(公告)号:CN111563379B
公开(公告)日:2022-12-02
申请号:CN202010396412.7
申请日:2020-05-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/289 , G06F40/242 , G06F40/30 , G06F16/35
Abstract: 本发明提出了一种基于中文词向量模型的文本识别方法、装置及存储介质,该方法包括:基于目标词、上下文窗口词和目标词声调n‑grams构建第一中文词向量模型和第二中文词向量模型;基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证,提高了识别准确率,且构建词向量时使用了声调这一元素,丰富中文词向量所包含信息,避免了特征噪声对词向量的影响,最大程度的保留目标词的语义和语调特征,引入了负样本并构建了损失函数。
-
公开(公告)号:CN112379961A
公开(公告)日:2021-02-19
申请号:CN202011316333.7
申请日:2020-11-23
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F9/451
Abstract: 本发明涉及网状拓扑结构表示多种语义的方法、终端设备及存储介质,该方法中包括:设定命令行参数的网状结构中子节点能够有一个以上的父节点,将不同命令中具有相同子节点不同父节点的参数通过代表相同子节点的一个子节点和该一个子节点连接的多个不同父节点进行表示。本发明通过设定命令行参数节点可以有多个父节点,形成网状结构的处理方法,从而实现输入参数的顺序和个数的灵活性。
-
公开(公告)号:CN112261168A
公开(公告)日:2021-01-22
申请号:CN202011064059.9
申请日:2020-09-30
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: H04L29/12
Abstract: 本发明涉及一种多IP端口段用户信息查找方法、终端设备及存储介质,该方法包括学习流程和匹配流程;学习流程用于将IP地址对应的所有IP端口号划分为多个区间后,将已知IP地址和IP端口号的用户信息存入该IP端口号对应区间的存储地址内;匹配流程用于根据已知IP地址和IP端口号,查找对应的用户信息。本发明可以根据报文五元组快速锁定对应的扩展信息,直接偏移挑战,保证查询的高效性。
-
公开(公告)号:CN111581970A
公开(公告)日:2020-08-25
申请号:CN202010396183.9
申请日:2020-05-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/289 , G06F40/30 , G06F40/126 , G06F40/216 , G06N3/04
Abstract: 本发明提出了一种网络语境的文本识别方法、装置及存储介质,该方法包括:基于文本长窗口构建风格语义模型,基于文本短窗口构建偏旁级语义模型;使用网络语境的语料库基于风格语义模型向量模型和偏旁级语义模型训练得到网络语境的中文词向量模型;使用所述网络语境的中文词向量模型对输入的网络语境的文本进行识别并输出识别结果。本发明在分词时使用两个不同窗口,长窗口用于提取网络化风格的语义信息,文本短窗口用于提取不同细粒度的语义特征,在训练阶段将二者结合,获得更加准确的词向量表达,以提高网络语境的文本识别率,本发明优化了目标函数,使得模型训练速度加快,在训练时,还建立了部首转义的方法,从而提高了文本的识别率。
-
公开(公告)号:CN111563379A
公开(公告)日:2020-08-21
申请号:CN202010396412.7
申请日:2020-05-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/289 , G06F40/242 , G06F40/30 , G06F16/35
Abstract: 本发明提出了一种基于中文词向量模型的文本识别方法、装置及存储介质,该方法包括:基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型;基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证,提高了识别准确率,且构建词向量时使用了声调这一元素,丰富中文词向量所包含信息,避免了特征噪声对词向量的影响,最大程度的保留目标词的语义和语调特征,引入了负样本并构建了损失函数。
-
-
-
-
-