浅谈高校的数据清洗与整合

计算机时代 / 2017年08月27日 08:53

数码

...扶贫对象核实及数据清洗工作问题解答

庞金香

摘 要: 针对我校信息化建设现状中最为突出的“信息孤岛”问题,从信息化建设的根本出发,构建面向高校服务的数据清洗与整合大平台,全面规范我校数据资源,让数据以高质量的形式呈现给使用者,从而突破“信息孤岛”并进一步打破“服务孤岛”。经过挖掘分析、清洗、整合后的校内各类数据为教育教学改革提供了各种服务,提升了我校信息化管理水平,为建设智慧校园提供了精准有力的工具。

关键词: 数据; 数据清洗; 信息化; 整合

中图分类号:TP393 文献标志码:A 文章编号:1006-8228(2017)08-39-03

Abstract: Aiming at the predominant problem of "information island.jpg" >

Key words: data; data cleaning; informatization; integration

0 引言

数据已成为诸多行业的重点研究对象,多元数据具有非常重要的社会价值。当前正在使用大数据的案例大部分集中于社会商业领域和公共管理部门。相比之下,高校的数据在多元性方面还远不及上述领域的数据。校园一卡通系统是高校内产生数据量最多的应用,根据存储统计,其交易数据量可以达到几百个G,但距离P(即100万G)量级的数据规模还有相当大的差距。从数据多样性角度来看,高校数据种类繁多,类别丰富。大数据的思想和技术对于高校的信息化建设将起到非常重要的作用[1]。数据能够为高校带来价值,有利于高校的发展和创新。

1 高校信息化现状

在大数据背景下,高校的IT资源现状和支撑条件已无法满足实现大数据应用的要求[2]。处于信息化建设不同阶段的高校,都普遍存在着“信息孤岛”的问题[3],具体包括:基于应用本位的理念导致从管理思维出发建设了诸多应用系统;前期缺少信息化整体建设规划,从而因应用系统建设时期的不同导致各部门信息化水平和程度的参差不齐;系统的版本有新有旧,人员对信息化的认知程度千差万别。早期搭建信息化平台的高校,都在不同程度上存在着各种各样的数据质量问题,如数据繁杂异构导致系统架构不同、数据种类繁杂缺乏融合等[4]。

2 应对措施

我校在前期的信息化建设中,搭建了数字化校园基础平台,完成了部分资源的共享互联工作。随着业务部门应用系统的增加,以及对信息化需求的不断扩充,大量教学、科研、人事、行政、后勤管理等方面的业务数据资源日益积累下来。在保证学校原有IT资源的前提下,我校对这些数据资源进行充分合理的利用,通过数据治理的手段,采集全面有效、权威准确的信息数据,形成服务资源,分类型存储在数据仓库中,对这些数据进行了挖掘和分析,由此形成了如图1所示的高校数据结构图。据此搭建基于数据标准的元数据库,以数据标准作为元数据的约束,继而以元数据为基础形成全校的核心数据库。

信息化应用不论建于何时,数据量都是在不断地补充和丰富的,数据种类也是在不断的更新和变换之中,这些数据包括历史数据、新數据、主数据、业务数据等[5]。采用面向服务的数据清洗与整合平台,清洗后的数据能够为学校提供重要的分析及决策依据。

3 面向服务的数据清洗与整合平台建设策略

3.1 平台建设策略

构建高校面向服务的数据中心,首先从学校内部业务出发,以业务为主线,以服务为目的,通过数据清洗与整合平台,采集精准高质量的数据,并与业务进行融合贯通,从而利用数据为用户提供服务[6]。数据清洗与整合平台架构如图2所示。

如果不是从高校的数据质量及业务逻辑出发,而只是零散、随机地利用数据进行一些分析和挖掘,那么数据资源就可能成为缺乏价值和生命力的一种摆设。因此,高校面向服务的数据清洗与整合平台建设可以起到至关重要的作用。高质量、全面的数据来源于业务,所以必须通过业务系统得到基础数据。不同业务系统提供的基础数据将汇聚到共享数据中心,经过清洗、整合、变换、转化,成为规范的、标准的、准确的、一致的、完备的数据信息。这些数据信息随后在数据工程师手中进行聚合、运算、变换,得到提炼;通过业务模型发现其新的价值,再通过专业工具予以展示,最终变为人们浅显易懂的形式,成为学校业务改进、管理能力提升、教学质量提高和整体办学能力增强的有力武器。

3.2 面向服务的数据清洗与整合平台的组成部分:数据服务共享中心库和数据交换服务平台

从数据标准的管理和信息化项目入手,采用灵活可配置的标准管理策略,参照标准库,通过因地制宜的方式,制定适合本校现状的标准草案,形成一套系统的执行标准。同时,不断与信息化项目的需求进行匹配并修正,从而形成一个良好的闭环系统,真正实现灵活可配置的特性。结合元数据管理和服务接口管理,在遵循数据标准管理的基础上,实现标准、开发、具有柔性特质的数据服务共享中心库的设计。

在不同学校、不同时期,数据结构以及业务系统访问服务接口均有所变化,一套墨守成规的管理方式无法满足学校的真实需求。如果基于信息标准定义元数据,自动生成或更新中心库的表结构,并将原有的中心库平滑地整合到现有共享数据中心,实现开放的、可定制的对外数据服务功能,那么系统维护人员或管理员只需进行简单配置即可定制出数据服务接口,而无需通过编程完成。这样就可以完美地实现安全、灵活、便捷、可感知、可控制的柔性特质。

将原有业务系统中心库平滑地整合到现有共享数据中心,需要经过数据清洗、整合、变换、转化等过程。建立数据交换服务平台,能够实现可视化任务设计、多用户在线管理、可视化业务建模、多引擎热部署等功能。内置的15类共200多种数据整合业务组件及多种转换规则,几乎涵盖高校所有业务。针对多样性数据以及不同规则的整合要求,通过简单的参数配置就能完成设计,操作简单快速,无需编程。简易的操作体现在可视化管理和系统的易操作性。B/S架构用于数据整合监控管理,C/S模式用于设计数据整合工具,基于HTML5技术对业务流程进行管理与设计。该平台能够承载学校业务系统内外的所有数据,以高性能的模式实现集群智能负载均衡,能够在短时间内处理龐大的数据量,从而保证数据的全面性和规范性。

数据经过全面规范化后,将以高质量方式呈现给管理者,这样就体现出了数据的深层价值。若按照既定模式,将数据放置在传统固化的门户上,已不能够满足需求。因此,需要搭建如图3所示的整体数据服务体系。

数据清洗的完成,逐步解决了教务系统、人事系统、图书管理系统、一卡通系统、科研系统、学工系统、迎新系统、研究生管理系统、留学生系统、信息发布系统、服务中心、土地管理系统、公用房管理系统、刷卡开柜系统、腾讯邮箱、后勤管理系统、人事自助打印系统、联创刷卡上机系统、出入境管理系统、大型仪器管理系统、石大云平台、数字石大、网络计费、联想网盘系统、无纸化会议系统、安保系统、餐饮服务系统等业务部门之间信息交互不规范、信息系统因分布不完善而存储到不同的数据存储载体、部门间因信息编码不一致而无法进行数据的交换和共享以及信息的实时交换和共享等问题,从而有效防止过期或无效数据,并且依据清洗后的数据进行大数据分析。

4 结束语

本文研究了高校数据清洗与整合,对校内各类数据进行挖掘和分析,可为学校的跨越式发展提供科学化的数据支持,提高学校管理水平。下一步的信息化建设目标是将我校建设成为一个“数据化、服务化、智慧化”程度更高的可持续发展的智慧校园。因此必须研究如何合理利用新的信息技术工具,以实现学校教育管理信息化为前提,实现更精准更有价值的大数据分析。

参考文献(References):

[1] 姚伟.基于大数据背景下的数字化校园建设[J].信息安全与技术,2015.9:75

[2] 赵建华.数字化校园建设下大数据时代高效IT运维管理[J].长春师范大学学报,2015.34(12):47

[3] 周杰.高校教育信息化与数字化校园建设的探究[J].制造业自动化,2011.33(3):218

[4] 匡博,王颖.大数据时代下数字化校园建设的研究与探讨[J].电脑知识与技术,2016.12(10):11

[5] 梁飞媛.关于发展我国高校教育信息化若干问题的思考[J].教育探索,2010.9:25

[6] 李建中,王宏志,高宏.大数据可用性的研究进展[J].软件学报,2016.27(7):1605

1.环球科技网遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.环球科技网的原创文章,请转载时务必注明文章作者和"来源:环球科技网",不尊重原创的行为环球科技网或将追究责任;3.作者投稿可能会经环球科技网编辑修改或补充。