一种基于文本‑标签密度的网页核心内容提取方法

    公开(公告)号:CN106055667A

    公开(公告)日:2016-10-26

    申请号:CN201610390441.6

    申请日:2016-06-06

    Inventor: 蒋东辰 闫艺鑫

    CPC classification number: G06F16/9577 G06F16/95

    Abstract: 本发明涉及一种基于文本‑标签密度的网页核心内容提取方法,其包括:网页源代码预处理、网页核心内容范围预估、核心内容边界确定和删除剩余标签四个阶段。网页源代码预处理阶段从原始网页文本中提取标题、摘要、描述等核心要素,并删除原始网页文本中与网页核心内容无关的标签,从而得到待处理文本;网页核心内容范围预估阶段,确定网页核心内容的大致范围;核心内容边界确定阶段分别确定网页正文核心内容精确的起止位置;删除剩余标签阶段取出核心内容部分,并删除多余标签,获得便于分析处理的网页核心内容。本发明无需解析网页文档的DOM结构,也不限定网页的主题和内容,处理过程具有线性复杂度,能够适用于各种网页核心内容提取、网页去噪等技术应用。

    基于可弹性伸缩分布式负载均衡的容器镜像扫描方法及系统

    公开(公告)号:CN119960916A

    公开(公告)日:2025-05-09

    申请号:CN202510113735.3

    申请日:2025-01-24

    Inventor: 王贺 蒋东辰

    Abstract: 本发明提出一种基于可弹性伸缩分布式负载均衡的容器镜像扫描方法及系统,属于容器镜像安全领域,包括:S1:Server端基于Kubernetes的准入控制获取容器组模板;S2:Server根据模板执行不同的扫描策略;S3:Agent根据Server分发的镜像层从镜像仓库获取镜像层进行扫描并把结果回传到Server;S4:Job根据镜像名称在节点上进行扫描任务并上报扫描结果,任务执行结束后该Job容器自动销毁;S5:Server根据Agent的资源情况进行分发扫描任务并根据负载动态调整Agent数量;S6:系统通过校验镜像层ID唯一性,避免重复扫描。本发明方法实现了高效的容器镜像扫描和资源管理。

    一种简答题自动批改系统及方法

    公开(公告)号:CN110175585B

    公开(公告)日:2024-01-23

    申请号:CN201910462776.8

    申请日:2019-05-30

    Abstract: 本发明涉及一种简答题自动批改系统,其特征在于包括:文本解析和标注模块、相似度比较模块、相似度评分模块,客户端包括用户输入答案文本,用户标注词对和展示结果。本发明能够在不依赖于知识库的情况下实现对语义的深层分析,并且使用优化的词语比较方法,得到答案文本的相似度。

    一种自适应中文新词识别方法与系统

    公开(公告)号:CN111339753A

    公开(公告)日:2020-06-26

    申请号:CN202010117792.6

    申请日:2020-02-25

    Abstract: 本发明提出一种自适应中文新词识别方法及系统,所述方法包括如下步骤:文本初始化步骤:用于对输入文本text做结构化处理,获得一个包含原有中文汉字并保持原文本中中文汉字相邻关系、间隔关系的宽字符序列;非偶然共现判定步骤:使用二项分布或使用泊松分布近似表征一对汉字前后相邻出现的概率分布,并基于给定的非偶然共现显著性水平αp确定文本text中的所有非偶然共现的相邻汉字对;统计关联性判定步骤:给定关联性显著性水平αk,判定文本text中相邻中文字符的关联程度,筛选出具有内部强关联的中文字符串;现有词库过滤步骤:基于现有词典,在满足非偶然共现和内部关联性强的字符串中筛选出尚未在词典中出现的中文字符串。

    融合用户评分与评论的景点推荐算法与系统

    公开(公告)号:CN119939026A

    公开(公告)日:2025-05-06

    申请号:CN202510003484.3

    申请日:2025-01-02

    Inventor: 吴海帆 蒋东辰

    Abstract: 本发明涉及景点推荐技术领域,具体为融合用户评分与评论的景点推荐算法与系统,包括数据采集模块,用于从马蜂窝旅行网站采集数据,并进行去除重复、统一格式、处理缺失值等整合与标准化处理,确保数据格式统一;特征提取模块,含基于图结构提取模块,将用户‑景点评分数据构建为图结构,还包括基于评论分析模块,运用LDA主题模型挖掘评论潜在主题与特征词,借助句法分析和情感分析工具提取属性词‑情感词对;推荐生成模块,先分别基于图推荐和协同过滤算法生成景点列表,再按权重融合得到最终推荐列表。本发明旨在克服传统推荐技术仅依赖评分、忽视评论信息等缺陷,提升景点推荐的精准度与个性化程度,满足旅游市场多样化需求。

    针对英语单词学习的英文文本推荐方法

    公开(公告)号:CN118427336A

    公开(公告)日:2024-08-02

    申请号:CN202410681219.6

    申请日:2024-05-29

    Abstract: 本发明提出一种针对英语单词学习的英文文本推荐方法,属于计算机辅助英语学习领域,包括:S1:基于学习者已掌握的单词以及对应的阈值确定目标单词;S2:筛选文本库中的每一篇文本t中的所有显著性单词;S3:构建文本的词共现网络,并按照单词在词共现网络的中心性特征排序,得到文本的核心单词;S4:将t显著性单词和核心单词中重叠的词作为核心关键词;S5:计算各文本核心排序、平均词频排序、单词丰富度排序和主题排序,基于此得到加权平均排序1;S6:检测学习者是否掌握新词汇,根据检测结果得到备选词;S7:根据备选词和加权平均排序1计算加权平均排序2。本发明自适应地为学习者推荐适合其当前水平的英文阅读文本。

    一种基于词频显著度水平的英文文本类别识别方法及系统

    公开(公告)号:CN111859915B

    公开(公告)日:2023-10-24

    申请号:CN202010735101.9

    申请日:2020-07-28

    Abstract: 本发明提出一种基于词频显著度水平的英文文本类别识别方法及系统,所述方法包括如下步骤:步骤1、示例文本词频统计:将各文本中的概念实词做标准化处理,统计各个类别中各概念实词的词频信息,为后续文本类别的特征提取提供数据支持;步骤2、文本类别特征提取:基于各类别示例文本的词频统计信息,根据给定的显著性水平α,采用假设检验的方法确定各个主题类别的特征词,得到特征词集合;步骤3、零出现特征词识别:在特征词集合中,找出在目标文本中没有出现,但却构成某些类别负特征的单词;步骤4、目标文本词频统计:统计目标文本中所有特征词的词频信息;步骤5、目标文本类别识别:根据目标文本和特征词集合中单词的词频信息、零出现特征词集合,以及给定的类别距离计算方法,确定目标文本的类别归属。

    用于代码生成的类型推理方法及系统

    公开(公告)号:CN117910583A

    公开(公告)日:2024-04-19

    申请号:CN202410158961.9

    申请日:2024-02-04

    Inventor: 付辰曦 蒋东辰

    Abstract: 本发明涉及一种用于代码生成的类型推理方法及系统,其方法包括:S1:对Isabelle函数定义进行语法解析并转为抽象语法树AST;S2:根据函数定义提取其中各变量类型并记录在AST中;S3:从AST根节点开始依据表达式的类型采用不同的递归规则,递归到叶子节点后标注其类型,并推导其上一层表达式类型;S4:将表达式中拥有原定义类型的表达式的类型与对应的原定义类型进行修饰进行区分和标注;S5:对多种不同类型表达式,比较其抽象—具体关系,并确定出正确类型以完成一致化;S6:自顶向下地为部分缺少准确类型信息的表达式补全其类型。本发明方法提高生成的C++代码的正确性,可以满足代码生成时对表达式类型信息的需求。

    一种无监督自适应领域术语识别方法及系统

    公开(公告)号:CN116701628A

    公开(公告)日:2023-09-05

    申请号:CN202310676884.1

    申请日:2023-06-08

    Abstract: 本发明涉及一种无监督自适应领域术语识别方法及系统,其方法包括:S1:对待识别文本进行预处理,得到字符串序列;S2:分词处理字符串序列,对分词结果序列的邻接汉字对进行非偶然共现判定,得到非偶然相邻的汉字对集合NCP;S3:根据独立性假设检验,得到NCP中具有强关联性的汉字对,合并汉字对所在的字符串,进而获得满足非偶然性且具有强关联性的字符串作为备选术语;S4:过滤术语备选词中的垃圾字符串,得到过滤后的备选术语;S5:基于掩码语言模型获取过滤后的备选术语的词向量;S6:对备选术语和已有术语的词向量进行密度聚类和筛选,确定备选术语的所属领域。本发明提供的方法可对专业领域文本中的专业术语进行自动识别。

Patent Agency Ranking