-
公开(公告)号:CN110134950A
公开(公告)日:2019-08-16
申请号:CN201910349756.X
申请日:2019-04-28
Applicant: 北京百分点信息科技有限公司
Abstract: 本发明公开了一种字词结合的文本自动校对方法,首先分别采用如下两种查错方法进行查错:1)基于n-gram语言模型的查错方法;2)基于lstm语言模型的查错方法;然后将两种方法的查错结果求交集,得到最终的查错结果。本发明方法基于词符嵌入(word embeddings)技术、双向lstm网络、CRF(Conditional Random Field,条件随机场)模型等实现对输入文本进行分词与词性标注,在此基础上基于n-gram模型、双向lstm语言模型以及规则策略,实现文本中存在的错误查找。
-
公开(公告)号:CN110543549A
公开(公告)日:2019-12-06
申请号:CN201910818133.2
申请日:2019-08-30
Applicant: 北京百分点信息科技有限公司
IPC: G06F16/33 , G06F16/332 , G06F16/35 , G06F17/27
Abstract: 本申请公开了语义等价性判断方法及装置。该方法包括:根据第一语句和第二语句生成第一语句所对应的多个向量以及第二语句所对应的多个向量;将第一语句所对应的多个向量与第二语句所对应的多个向量进行匹配,并根据匹配结果生成相似度表示;将相似度表示拼接后通过模型的相似度表示层进行筛选;将筛选结果输入模型的自注意层,并通过自注意层计算自注意力值,自注意力值反映第一语句和第二语句的内部结构;根据自注意力值判断所述第一语句与所述第二语句之间的语义是否等价。由于该方法对多个句子之间语义是否等价的判断结果,相对于现有技术准确性更高,因此能够用于解决现有技术中的问题。
-
公开(公告)号:CN110162632A
公开(公告)日:2019-08-23
申请号:CN201910414328.0
申请日:2019-05-17
Applicant: 北京百分点信息科技有限公司
Abstract: 本发明公开了一种新闻专题事件发现的方法,主要包括:S1、对每篇给定的新闻文章进行事件主题句识别;S2、对每篇给定的新闻文章进行事件核心元素抽取;S3、利用步骤S2中提取的每篇新闻文章的事件核心元素判别文章相似性。本发明方法基于事件元素抽取(Event extraction)技术、话题追踪检测(Topic Detection and Tracking)、事件关系发现及专题新闻增量追加技术,来实现新闻文本的专题事件发现和聚类,实现新闻文本的基于话题进行专题聚类和发现的方法,使用者无需提供标注训练数据,也无需提供事件类型模板,无需了解相关领域知识,即可实现高质量的专题聚类和事件发现。
-
公开(公告)号:CN109858041A
公开(公告)日:2019-06-07
申请号:CN201910172675.7
申请日:2019-03-07
Applicant: 北京百分点信息科技有限公司
Abstract: 本发明公开了一种半监督学习结合自定义词典的命名实体识别方法,包括如下步骤:S1、用未标注数据预训练Bi-LSTM语言模型;S2、在Embedding层采用字向量模型将每个字符向量化;S3、采用两层的双向LSTM作为序列标注模型,所述序列标注模型采用标注数据训练;S4、加入用户自定义词典;S5、使用维特比解码求出序列中的最大概率路径。本发明将预训练的语言模型的输出和第一层双向LSTM的输出作拼接,并作为第二层双向LSTM的输入可以减少标注语料的使用,同时在切换领域时可以只更换新领域的标注语料。另外,在预测的时候通过自定义词典的设置,可以更改进入维特比解码的发射矩阵,从而达到自定义词典的效果。
-
公开(公告)号:CN110633359A
公开(公告)日:2019-12-31
申请号:CN201910832807.4
申请日:2019-09-04
Applicant: 北京百分点信息科技有限公司
IPC: G06F16/332 , G06F17/27 , G06N3/04
Abstract: 本申请实施例公开了一种语句等价性判断方法和装置,所述方法包括:获取待判断等价性的语句;将所述语句输入预先训练的等价性判断模型,所述等价性判断模型根据基于深度学习模型和人工特征模型的模型平均方法训练得到;通过所述等价性判断模型对所述语句进行等价性判断,得到等价性判断结果。通过本申请实施例,可以提高语句等价性判断的效率和精确性。
-
公开(公告)号:CN110782008A
公开(公告)日:2020-02-11
申请号:CN201910983661.3
申请日:2019-10-16
Applicant: 北京百分点信息科技有限公司
Abstract: 本申请实施例公开了一种深度学习模型的训练方法、预测方法和装置,针对人工特征拟合XgBoost模型,并通过XgBoost模型提取特征,将提取的特征输入改进的Transformer模型当中,并进一步进行训练,通过该Transformer模型降低人工特征输入的维度,再将该Transformer输出的特征与BERT模型输出的特征进行连接并共同进行训练。通过这种方法,可以在不损失大量预测精度的基础上,有效地降低人工特征输入的维度,从而有效提高深度迁移学习的预测效果。
-
公开(公告)号:CN110008323A
公开(公告)日:2019-07-12
申请号:CN201910236751.6
申请日:2019-03-27
Applicant: 北京百分点信息科技有限公司
IPC: G06F16/332 , G06F17/27 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种半监督学习结合集成学习的问题等价性判别的方法,包括S1、同义词归一化:1)词向量嵌入;2)词语相似度判断;3)人工判断;S2、语义等价性识别:基于LSTM的对偶网络的计算;基于CNN的对偶网络模型的计算;基于Match Pyramid模型的计算;人工提取特征。本发明通过半监督的方式生成并引入同义词,从而使得整个系统可以根据具体领域进行灵活调整,并通过集合学习四种不同模型对问题的语义等价性进行判断,从而发挥不同模型的优势。
-
-
-
-
-
-