当前位置:知识管理服务 >> EPM网络不良信息监控系统

EPM网络不良信息监控系统

互联网作为一个开发和使用信息资源的全球性网络,正在对经济、政治、文化、科技、军事等各个领域产生重大影响,深刻改变着人们的生产、工作和生活方式,对推动经济发展和社会进步起到了积极作用。但我们在享受网络给我们带来的前所未有的物质和精神文明的同时,也看到一些与此不相协调的、正在侵蚀人们灵魂的东西正悄悄地沿着网络迅速蔓延,这就是网络不文明现象——即互联网光明中的黑暗文化。这类信息毒害社会,毒害青少年,给社会带来了不可低估的负面影响。

清华同方EPM网络不良信息监控系统(简称:EPM监控系统)正是根据互联网信息安全主管部门的实际需要,提出的网络不良信息监管全面解决方案。它能够对互联网信息进行实时采集、监测,自动发现不良信息并报警,是集人工智能、搜索引擎、大规模非结构化信息处理、中文智能信息处理等多种高新技术于一体的应用系统。通过它低成本、易管理、可伸缩的系统特性,您可以轻松快捷的开展互联网监控工作。

EPM监控系统已成功应用于国家新闻出版总署和北京市新闻出版局的网络出版监管工作中,实现了对网络原创文学、网络期刊、网络报纸等网络出版相关信息内容的有效监管,协助有关部门查处了一批网络出版大案、要案。

系统总体架构

EPM监控系统包含多个功能相对独立的子系统,其架构图如下:

数据获取子系统

数据获取子系统是监管系统的基础部件,它利用网络蜘蛛从互联网上抓取数据,直接输入需要监管的网站的网址,蜘蛛即可迅速从这些网站获取数据。

该子系统可以对被监管的网站实时扫描,最开始抓取网站全部网页后,以后都增量抓取网站更新的网页,保证及时准确全面的获得网站数据。采用多线程技术,可同时抓取多个网站,并可以群集,在条件允许的情况下,分布式运行多个网络蜘蛛,可有效提高抓取网页的速度。

智能代理

智能代理是系统核心模块,它基于先进的浅层语义分析技术,集成多种智能信息处理算法,从浩如烟海的网站数据中准确地识别出所需监管的非法网络信息,并拥有自学习功能。

智能代理子系统组织形式灵活,既能全面监管网络上出现的非法信息,又能重点监管某些网站某些内容。用户可动态增加监管主题和调整分级监管策略,以应对临时性、突发性任务,智能代理系统具有快速调整的适应能力。

多个智能代理可以群集在一起,并行处理网络蜘蛛抓取的数据,可有效提高网页分析过滤的处理速度。

应用服务器

应用服务器子系统是该系统的调度中心,主要起到各种任务的分配、子系统间的消息转发及各子系统的调度。启动应用服务器后,各个子系统即可以随时连到系统中来,也可以随时从系统中断开,而不会影响整个系统的运行。具有很强的扩展性和分布性。

通过TCP/IP连接,各子系统连接到应用服务器中来,由应用服务器统一管理和调度,从而可使整个系统采用分布式部署,让多个网络蜘蛛和多个智能代理通过应用服务器群集起来,提高系统性能。

转存器子系统

该子系统主要作一些后处理工作,接收由智能代理子系统过滤出来的非法信息,利用先进的实时排重技术,将这些非法信息中重复的信息合并为一个案件,并保留重复案件的其他可用信息。然后将处理过的案件数据和一些统计信息保存到案件库中,在案件库中新增加案件时会立即发出警告,通知相应的客户端,以便及时处理。

用户处理子系统

该子系统是提供给最终用户与监管系统进行交互、对系统内的各种数据进行处理的用户接口。

它能提供多种角色登录,不同的角色登录出现不同的界面,提供不同的功能。可以以审核人员的身份登录,对案件库中的案件进行处理,根据确认后的案件生成报表;可以以管理员身份登录,对整个系统进行一定的管理和维护;可以以领导身份登录,从宏观上查看案件的历史统计图和各种报表,并进行处理等。

系统特点

权威的不良信息监管知识库

不良信息的有效监管需要完备的知识库,该知识库与杀毒软件的病毒库作用类似,是系统有效工作的基础条件。由中宣部、新闻出版总署、统战部、国家民委、国家宗教局、总政新闻出版局、国台办、军科院、中央党史文献研究室等12个部委的相关专家,对互联网禁载内容的分类标准进行了研究,制定了涵盖58类的网络内容监管目录体系。基于该目录体系,对不良信息样本进行了系统的采集、加工和整理,建成了目前国内比较权威和完备的不良信息监管知识库。

基于EPM权威的不良信息监管知识库,用户可直接进行基本的互联网监控,无需再进行艰苦的不良信息样本收集工作。

先进的智能代理技术

智能代理基于先进的浅层语义分析技术,集成贝叶斯、K近邻、支持向量机、最小距离、语义规则等多种文本自动分类算法,并可进行智能组合。

系统体系架构灵活,具有良好的开放性和可扩展性

智能代理可集成第三方算法,具有良好的开放性。基于应用服务器,智能代理和网络蜘蛛可群集,可分布式部署,可进行规模扩展,具有良好的可扩展性。

监控策略灵活,可实现动态分级监管

网络蜘蛛多线程并行采集,实时动态监控特定目标,采集策略可灵活定制,从而实现内容分级监管。

专业中文智能信息处理平台,有效保障系统分析问题的准确性

KBase全文数据库管理系统集成专业的自然语言处理引擎,提供先进的全切分切词方法,集成海量概念关系词典,并可提供繁简转换、同音字处理等功能。