一种字词结合的文本自动校对方法

    公开(公告)号:CN110134950A

    公开(公告)日:2019-08-16

    申请号:CN201910349756.X

    申请日:2019-04-28

    Abstract: 本发明公开了一种字词结合的文本自动校对方法,首先分别采用如下两种查错方法进行查错:1)基于n-gram语言模型的查错方法;2)基于lstm语言模型的查错方法;然后将两种方法的查错结果求交集,得到最终的查错结果。本发明方法基于词符嵌入(word embeddings)技术、双向lstm网络、CRF(Conditional Random Field,条件随机场)模型等实现对输入文本进行分词与词性标注,在此基础上基于n-gram模型、双向lstm语言模型以及规则策略,实现文本中存在的错误查找。

    一种事件预测方法、装置及系统

    公开(公告)号:CN107622333B

    公开(公告)日:2020-08-18

    申请号:CN201711064205.6

    申请日:2017-11-02

    Abstract: 本申请公开了一种事件预测方法、装置及系统。方法包括:获取社交网络数据中的文本数据;对所述文本数据进行向量化处理,获取所述文本数据对应的特征向量;将所述特征向量输入至预建立的分类模型,所述分类模型用于以所述文本数据的特征向量为特征确定所述文本数据对应于可疑事件的概率。本申请通过抓取海量的社交网络数据,并对其中的文本数据进行自然语言处理,以从中找到作为关键影响因素的特征向量,并基于影响特征对文本数据进行预测,以达到准确预测可疑事件的目的。

    一种模板化的数据处理方法及装置

    公开(公告)号:CN111459474A

    公开(公告)日:2020-07-28

    申请号:CN202010176562.7

    申请日:2020-03-13

    Abstract: 本申请公开一种模板化的数据处理方法及装置。所述方法包括:确定包含待处理数据、以及框架标识的数据处理请求;获取为所述框架标识对应的大数据处理框架预设的特殊处理逻辑,所述特殊处理逻辑包括相比于其他大数据处理框架、具有特殊性的处理逻辑;根据所述特殊处理逻辑,以及预设的算子模板,生成适配于所述大数据处理框架的目标算子,所述预设的算子模板中包括适配于多种大数据处理框架的通用处理逻辑、以及为特殊处理逻辑预留的空位;响应于所述数据处理请求,根据所述待处理数据,利用所述目标算子执行数据处理。

    一种动态管控方法、装置、电子设备

    公开(公告)号:CN111179136A

    公开(公告)日:2020-05-19

    申请号:CN201910709122.0

    申请日:2019-08-01

    Abstract: 本申请公开了一种动态管控方法,用以解决由于采用现有治理和管控方式需要与待管控目标直接或间接接触,从而导致实施过程中耗时较长、效率较低的问题。方法包括:基于待管控目标的行为轨迹数据,确定待管控目标的常驻区域;将待管控目标的常驻区域和预设的标准常驻区域进行匹配,以确定待管控目标的行为状态是否异常;当确定待管控目标的行为状态异常时,对待管控目标执行管控相关的处理。本申请还公开一种动态管控装置、电子设备及计算机可读存储介质。

    一种数据查询方法、装置以及电子设备

    公开(公告)号:CN111177180A

    公开(公告)日:2020-05-19

    申请号:CN201911264283.X

    申请日:2019-12-11

    Abstract: 本申请公开了一种数据查询方法,用于解决采用现有技术中对于没有相关专业背景的用户来说,通常难以运用编程语言基于查询请求对SQL模板中的槽进行修改,得到结构化查询语句的问题。方法包括:确定目标模板;基于各待查询词与待查询数据库中各个字段、各个聚合函数的相似度,对目标模板包含的目标关键词和筛选项标识进行填充;其中,待查询词由自然语言描述的查询语句进行分词得到;基于填充后的目标模板从所述待查询数据库中查询目标数据。本申请还公开一种数据查询装置、数据查询电子设备及存储介质。

    一种网页数据采集模板的生成方法和装置

    公开(公告)号:CN110489625A

    公开(公告)日:2019-11-22

    申请号:CN201910690874.7

    申请日:2019-07-29

    Abstract: 本发明公开了一种采集网页数据模板的生成方法、装置、电子设备和计算机可读存储介质。该方法包括:接收对网页中至少一个目标元素的选取指令,确定选取的目标元素的DOM路径,确定选取的目标内容的DOM路径;根据所述DOM路径生成解析模板;接收用户对所述解析模板中DOM路径的修改操作得到目标解析模板,其中,修改后的所述DOM路径中,用通配规则表示目标内容的DOM路径中的特殊属性值;所述目标解析模板用于对所述网页中的目标元素进行采集。

    一种新闻专题事件发现的方法

    公开(公告)号:CN110162632A

    公开(公告)日:2019-08-23

    申请号:CN201910414328.0

    申请日:2019-05-17

    Abstract: 本发明公开了一种新闻专题事件发现的方法,主要包括:S1、对每篇给定的新闻文章进行事件主题句识别;S2、对每篇给定的新闻文章进行事件核心元素抽取;S3、利用步骤S2中提取的每篇新闻文章的事件核心元素判别文章相似性。本发明方法基于事件元素抽取(Event extraction)技术、话题追踪检测(Topic Detection and Tracking)、事件关系发现及专题新闻增量追加技术,来实现新闻文本的专题事件发现和聚类,实现新闻文本的基于话题进行专题聚类和发现的方法,使用者无需提供标注训练数据,也无需提供事件类型模板,无需了解相关领域知识,即可实现高质量的专题聚类和事件发现。

    一种半监督学习结合自定义词典的命名实体识别方法

    公开(公告)号:CN109858041A

    公开(公告)日:2019-06-07

    申请号:CN201910172675.7

    申请日:2019-03-07

    Abstract: 本发明公开了一种半监督学习结合自定义词典的命名实体识别方法,包括如下步骤:S1、用未标注数据预训练Bi-LSTM语言模型;S2、在Embedding层采用字向量模型将每个字符向量化;S3、采用两层的双向LSTM作为序列标注模型,所述序列标注模型采用标注数据训练;S4、加入用户自定义词典;S5、使用维特比解码求出序列中的最大概率路径。本发明将预训练的语言模型的输出和第一层双向LSTM的输出作拼接,并作为第二层双向LSTM的输入可以减少标注语料的使用,同时在切换领域时可以只更换新领域的标注语料。另外,在预测的时候通过自定义词典的设置,可以更改进入维特比解码的发射矩阵,从而达到自定义词典的效果。

    一种数据库记录的维护方法和装置

    公开(公告)号:CN107609011A

    公开(公告)日:2018-01-19

    申请号:CN201710633565.7

    申请日:2017-07-28

    Abstract: 本申请公开了一种数据库记录的维护方法和装置。方法包括:根据对数据库基表中的第一记录的删除操作,在所述基表对应的删除表中增加所述第一记录的标识;修改所述基表对应的删除表在元数据表中对应记录的有效长度,所述元数据表用于存储基表和删除表的有效长度,所述有效长度用于表示对应的表的有效记录数。本申请通过为数据库基表配置对应的删除表,以在对基表中的记录执行删除、更新等操作时,将被删除记录的标识写入删除表,进而更新元数据表存储的基表和删除表的有效长度,以完成修改记录的操作。与现有技术相比,能有效提高修改记录的效率,进而提高记录管理的效率。

Patent Agency Ranking