-
公开(公告)号:CN119692339A
公开(公告)日:2025-03-25
申请号:CN202411762482.4
申请日:2024-12-03
Applicant: 国网辽宁省电力有限公司电力科学研究院
IPC: G06F40/232 , G06F40/253 , G06F40/30 , G06F16/35 , G06F40/126 , G06N3/045
Abstract: 基于SLM‑ELECTRA模型的中文电力文本错误纠错方法及系统,采集各种类型的电力文本数据;基于空间滞后模型建立统计语言模型;根据电力文本数据,输出电力文本数据中各词串符合词法的概率;当词串符合词法的概率小于设定阈值时,基于不同的粒度识别电力文本数据中的错误位置,生成候选词集合;基于预训练语言模型建立纠错模型,将错误位置、候选词集合与原始电力文本输入预训练语言模型;将待校正电力文本输入纠错模型,以上下文匹配度最高且符合词法的概率最大的候选词作为最优替换词进行校正,输出校正后的电力文本。适用于电力行业中的技术报告撰写、标准文档编制、操作手册制定等多种实际应用场景,为电力行业文本处理的准确性和效率带来了显著提升。
-
公开(公告)号:CN119577622A
公开(公告)日:2025-03-07
申请号:CN202411734210.3
申请日:2024-11-29
Applicant: 国网辽宁省电力有限公司电力科学研究院
IPC: G06F18/2431 , G06F18/2415 , G06F18/213 , G06F18/25 , G06F40/211 , G06F40/253 , G06F40/284 , G06F40/289 , G06F40/30 , G06N3/045 , G06N3/0464 , G06N3/084
Abstract: 基于ALBert模型的中文电力文本错误检测方法及系统,包括:对电力文本进行分词处理,提取短语作为不可分割单元,并根据文本长度动态调整分词粒度,将分词结果输入ALBert模型嵌入层生成包含字符级、词语级和上下文关联的语义向量;语义向量经过特征提取模块,结合文本的长度、复杂度和错误分布特征,通过调整卷积核参数和多层卷积操作提取字符级、词语级和句法级特征,并融合生成全局错误特征向量;从全局错误特征向量中提取错误标签,通过序列建模模块调整标签间的依赖关系权重,生成并优化错误标签序列;根据优化后的错误标签序列,结合上下文关系生成修正建议,输出错误位置、类型和修正内容的结构化检测结果,提供错误分布图和修正建议列表适应场景。
-