增强词汇一致性的神经机器翻译方法、设备和存储介质

    公开(公告)号:CN114462434B

    公开(公告)日:2025-03-25

    申请号:CN202111582619.4

    申请日:2021-12-22

    Inventor: 周玉 亢晓勉

    Abstract: 本公开提供一种增强词汇一致性的神经机器翻译方法,包括:通过训练获得标准的句子级Transformer翻译模型,获得初始化“目标端‑源端”注意力权重;对于输入Transformer翻译模型的篇章,抽取语义上下文向量和一致性上下文向量;利用一致性上下文向量对篇章中每组重复的源端单词生成对应的唯一的一致性概率分布;利用一致性上下文向量和语义上下文向量,评估源端重复单词需要被翻译一致的置信度;在Transformer翻译模型解码时刻借助注意力权重计算当前解码时刻最终的词表预测概率分布。本公开还包括对应的增强词汇一致性的神经机器电子设备和可读存储介质。

    文本信息分析方法、装置、电子设备及存储介质

    公开(公告)号:CN113901790B

    公开(公告)日:2024-09-17

    申请号:CN202111071139.1

    申请日:2021-09-13

    Inventor: 周玉 陈仲豪

    Abstract: 本公开提供了一种文本信息分析方法,包括:对目标文本进行向量化处理,获得目标文本的子句向量表示;获取向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句,组成至少一个情绪特征‑原因特征子句对;获取含有情绪特征的子句的情绪类别;获取向量化处理后的目标文本中含有意图信息的子句;以及基于情绪特征‑原因特征子句对、情绪特征‑原因特征子句对的情绪类别以及含有意图信息的子句生成目标文本的情绪‑原因‑意图组合。本公开还提供了一种文本信息分析装置、电子设备以及可读存储介质。

    动态调节DNS服务器方法、装置及存储介质

    公开(公告)号:CN117938657A

    公开(公告)日:2024-04-26

    申请号:CN202310875825.7

    申请日:2023-07-17

    Inventor: 邓彪 翟飞飞

    Abstract: 本公开是关于一种动态调节DNS服务器方法、装置及存储介质。应用于电子设备中的动态调节DNS服务器方法包括:部署数据采集机制,监测DNS服务器的性能并收集数据信息;将采集到的所述数据信息,存储在集中式数据库中;分析所述数据信息,计算DNS服务器的性能指标;根据所述性能指标,计算所述DNS服务器的性能评分,其中,所述性能评分用于确定服务器的质量和可靠性;基于动态权重调节机制,根据所述性能评分动态调整DNS服务器的第一权重。

    一种基于多语种的文本合成方法和系统

    公开(公告)号:CN117935280A

    公开(公告)日:2024-04-26

    申请号:CN202311272987.8

    申请日:2023-09-28

    Inventor: 周玉 邓彪 李伟超

    Abstract: 一种基于多语种的文本合成方法,包括:通过收集多个语种的Unicode编码范围构建每个语种的字符编码库;按用户需求构建每个语种的单词级翻译映射库;按第一预设规则构建对应的多语种的字体库;将文本语料进行过滤,将过滤后的文件进行分词处理,并记录单词频率;根据记录的单词频率选择单词合成图片,同时通过翻译库中映射出单词的翻译,将单词及翻译写入label文件中;按第二预设规则对合成的图片进行增强,重复进行批量合成,将合成的图片用于OCR训练。本发明在现有技术不能满足需求的情况下,实现合成多语种的文本图片,并且对图片进行颜色、背景,字体,模糊等处理,极大增加图片多样性,在一定程度上增加模型训练识别准确率。

    一种基于渐进式数据增强的OCR模型训练方法及系统

    公开(公告)号:CN117935272A

    公开(公告)日:2024-04-26

    申请号:CN202311271441.0

    申请日:2023-09-28

    Inventor: 周玉 邓彪 宗绪泉

    Abstract: 本公开属于计算机视觉技术领域,具体提供了一种基于渐进式数据增强的OCR模型训练方法及系统,其中方法包括:获取OCR模型;收集多种不同的场景文本数据的数据集,并划分为训练集和测试集;根据不同场景将测试集划分成不同子测试集,在每个特定场景所对应的子测试集上的训练过程中,逐步引入增强策略;当找到适合某一场景的增强策略,则切换到另一个场景所对应的子测试集,并逐渐增加增强强度,以找到最适合第二个场景的增强策略;重复上述过程,得到最佳性能的增强组合方式来进行训练。本发明结合了数据增强和渐进式训练策略,大大提升了模型在复杂场景中的识别能力。充分覆盖多样性场景,使得模型能够更好地适应不同场景的文本。

    一种基于模态对比学习的中文古籍自动断句方法及系统

    公开(公告)号:CN117932389A

    公开(公告)日:2024-04-26

    申请号:CN202311246147.4

    申请日:2023-09-26

    Inventor: 周玉 邓彪 白书航

    Abstract: 本公开属于自然语言处理技术领域,具体提供了一种基于模态对比学习的中文古籍自动断句方法及系统,其中方法包括:对中文古籍图像进行OCR识别,得到该页书籍的纯文本内容;将中文古籍图像输入图像编码器,将纯文本内容输入文本编码器;对于图像序列特征和文本序列特征,计算模态对比损失和分类损失,并进行融合得到最终的训练损失;将整体训练损失进行梯度回传,更新模型参数。本公开通过利用文本与图像、文本与文本、图像与图像之间的对比约束关系,充分利用训练数据,从而提升中文古籍自动断句模型内、模态间的特征表达能力,得到优秀的断句效果。

    一种面向大语言模型的相关问题推荐方法及系统

    公开(公告)号:CN117891912A

    公开(公告)日:2024-04-16

    申请号:CN202311798264.1

    申请日:2023-12-26

    Inventor: 邓彪 周玉

    Abstract: 本公开属于自然语言处理技术领域,具体提供了一种面向大语言模型的相关问题推荐方法及系统,其中方法包括:对用户输入的问题进行预处理得到关键词;通过大语言模型对问题库中的问题文本进行编码,生成特征向量,得到特征码库;利用大语言模型对关键词进行编码,生成输入向量;将输入向量与特征向量进行比较得到相似度,根据相似度对所特征码库中的特征向量进行排序;根据阈值筛选出相关问题返回给用户。本公开准确性高,能够为用户推荐与需求高度相关的问题;实时性和效率较高,能够快速地为用户提供问题推荐;易于集成,可以与现有的大语言模型和其他相关技术无缝集成;提高了用户体验,帮助用户更快地找到所需的信息,提高查询效率。

    智能问答方法及装置、终端设备及存储介质

    公开(公告)号:CN117591641A

    公开(公告)日:2024-02-23

    申请号:CN202311394445.8

    申请日:2023-10-25

    Abstract: 本公开是关于一种智能问答方法及装置、终端设备及存储介质。应用于第一设备中的智能问答方法包括:获取所述第一设备的第一界面上第一信息;其中,所述第一信息至少包括:输入的问题信息或者历史结果数据信息;当检测到发送指令时,将所述第一信息发送给第二设备;接收所述第二设备基于所述第一信息,返回的结果数据信息;其中,所述结果数据信息是所述第二设备基于预先训练的问答模型或搜索引擎得到的;将所述结果数据信息,显示在所述第一界面上。

    一种自动构建地图飞线可视化数据的方法及系统

    公开(公告)号:CN117555977A

    公开(公告)日:2024-02-13

    申请号:CN202311508628.8

    申请日:2023-11-14

    Inventor: 周玉 邓彪 温鹏展

    Abstract: 本发明涉及一种自动构建地图飞线可视化数据的方法及系统,包括如下步骤,步骤一、查询数据库中的位置标识和经纬度以及节点信息数据,并行加载位置标识和经纬度以及节点信息,步骤二、通过位置标识将经纬度设置到节点信息中,步骤三、提取节点之间的关系,步骤四、根据步骤三提取的节点关系数组,创建并行任务构建主分支节点之间的飞线信息和构建子分支之间的飞线信息,最后构建主分支节点和子分支节点之间的飞线信息,步骤五、获取飞线信息列表和节点信息列表转换为JSON格式传递给前端页面,步骤六、前端页面通过接收步骤五的数据使用ECharts在地图上显示最终效果;多任务并行处理,能高效快速的进行大量数据处理分析。

    一种个性化新闻数据推荐的方法、系统及储存介质

    公开(公告)号:CN117540087A

    公开(公告)日:2024-02-09

    申请号:CN202311508289.3

    申请日:2023-11-14

    Inventor: 周玉 邓彪 尚静波

    Abstract: 本发明涉及一种个性化新闻数据推荐的方法和系统,包括如下步骤:构建多个记录表、通过多个记录表,计算每个用户的特征、基于bert模型的句子向量编码计算出所有新闻内容的特征、将强关联性的新闻和热门新闻按照一定比例推送给用户、比对用户特征信息和新闻内容特征信息,根据新、老用户的不同,向不同用户推送不同新闻内容、前端接收数据进行展示、随时更新用户行为记录;本发明提供一种新闻推荐方法,能够提高用户敏感度,使其能准确的感知到周遭的信息或是趋势,用户接收到的信息更广泛,不再局限于小范围的喜好,使用户能看到除了用户特征之外的一部分热门信息,而且通过定期维护操作记录表提高了响应速度。

Patent Agency Ranking