当前位置:知识管理服务 >> 清华同方STM中文智能信息处理平台

清华同方STM中文智能信息处理平台

1. 概述

STM中文智能信息处理平台是在实施CNKI工程中厚积薄发,多年智能信息处理技术积累的结晶。依托CNKI海量资源和技术优势,STM中文智能信息处理平台已发展成为国际上首个面向海量信息处理的文本挖掘类实用化产品,多项技术指标居国际领先地位。

STM中文智能信息处理平台应用了国际上领先的文本挖掘、自然语言处理、概念关系词典等核心技术。它提供对海量数据进行智能检索、自动分类、自动聚类、关键词自动标引、自动文摘、信息过滤、关联规则挖掘等多种实用功能。以其为基础可方便地开发应用系统,快速地实现智能信息挖掘,有效地进行知识管理。

智能信息处理平台目前已成功应用于新闻出版总署网络出版监管系统、CNKI期刊数据(医学)主题词自动标引系统、CNKI期刊数据库关键词自动标引系统、CNKI期刊数据库自动分类系统等项目中。

2. 主要特点

2.1 自然语言处理引擎

自然语言处理引擎吸取了国际上语料库语言学的先进技术和经验,充分利用CNKI海量语料资源以及海量概念关系词典,使用世界领先的全切分技术,有效解决了歧义切分和未登录词辨识问题,并可以进行句法和语法分析。

2.2 智能文本挖掘引擎

1. 自动分类

自动分类将大量散乱的文本自动归类,自动梳理知识。智能文本挖掘引擎紧跟学术界文本分类的研究动态,实现了K近邻文本分类、Bayes文本分类和支持向量机文本分类等分类方法。自动分类的优异处理性能在CNKI海量学术期刊全文数据和超大分类体系中得到实际检验。

2.自动聚类

自动聚类对检索结果进行自动聚类或者对未知类别的散乱文本进行归类整理。智能文本挖掘引擎实现了K-Means扩展聚类算法和层次凝聚聚类算法。

3.信息过滤

   信息过滤根据用户的需求对动态的信息流进行过滤,仅保留用户感兴趣的信息。智能文本挖掘引擎实现了基于内容的信息过滤。

4.自动摘要

   自动摘要在篇章结构和内容分析的基础上为文本自动形成摘要。智能文本挖掘引擎可按照句数或者比例抽取摘要。

5.关键词自动标引

   关键词自动标引通过统计语言学和机器学习的手段为文本自动标引关键词。智能文本挖掘引擎以海量概念关系词典为基础,使用多特征组合以及Bayes概率方法抽取文本关键词汇,提高了处理效率和关键词抽取的准确率,为文本检索以及分类、聚类等其他应用打下坚实的基础。

6. 通用关联规则分析

通用关联规则分析有效地发现大量的数据间隐匿的关联关系,深入挖掘知识。智能文本挖掘引擎支持海量数据的关联规则分析,有效解决了关联组合爆炸的实际问题。

7.文本相似性分析

文本相似性分析提供文本间相似程度的度量。智能文本挖掘引擎以向量空间模型为基础,计算文本间的相似度,进而可以实现文本内容排重。

8. 相似检索

相似检索允许用户以更自然的方式,直接输入一段文字、一篇或几篇文章查找相关内容。智能文本挖掘引擎支持海量数据的快速相似检索,达到百万级记录毫秒级的检索响应时间。相似检索是目前国内首个达到实用化的相似检索系统。

2.3 海量概念关系词典

词典是中文信息处理的基石。依托CNKI工程的资源和技术优势,目前已建成500万级动态更新的术语库,并初步建立了它们之间的关系。该词典内容涵盖广泛,收录各个学科的学术词汇,其规模在业界远远领先。

3. 系统组成和框架

STM中文智能信息处理平台采用组件式架构体系,其核心包含:

· NLP自然语言处理引擎

· 智能文本挖掘引擎

· 概念关系词典

其中智能文本挖掘引擎包含自动分类器、自动聚类器、关键词自动标引器、内容相似性分析器、自动文摘器、信息过滤器、特征词分布规律分析器、通用关联规则分析器等组件。

STM中文智能信息处理平台采用先进的组件式构架,其体系结构如下: