面向制造型企业ERP系统的大数据分析与研究_数码_

面向制造型企业深度信息化的ERP改进实证研究

徐佳炳　童孟军

摘要：制造型企业为了转型升级已逐步使用ERP系统来管理企业，然而传统的ERP系统已无法满足一些制造型企业的发展，其主要原因是制造型企业生产物料种类繁多，产品结构复杂且多样化。当市场和客户需求变化时，企业的计划、采购和生产模式也需要不断变化，导致更多的不可控因素。文章应用大数据工具Hadoop对制造型企业的ERP系统进行数据分析与研究，将企业所产生的数据转换为有价值的信息，为企业管理人员的决策提供支持。

关键词：制造型企业； ERP系统；大数据； Hadoop

中图分类号：TP391.1 文献标志码：A 文章编号：1006-8228（2017）12-19-05

The analysis and study of Big data for manufacturing enterprise ERP system

Xu Jiabing， Tong Mengjun

（School of Information Engineering， Zhejiang Agricultural and Forestry University， Lin'an， Zhejiang 311300， China）

Abstract： Manufacturing enterprises have gradually used ERP system for its transformation and upgrading， but the traditional ERP system has been unable to meet the demands of manufacturing enterprises. The main reason is a great variety of its products， and complex and diversified products structure. When the demands of market and customers changed， the planning， procurement and production mode of enterprise also need to be changed constantly， resulting in more uncontrollable factors. In this paper， the big data tool Hadoop is used to analyze and study the ERP system of manufacturing enterprises， and the data generated by the enterprises is transformed into valuable information， which provides support for the decision making of the enterprise management personnel.

Key words： manufacturing enterprise； ERP system； big data； Hadoop

0 引言

我国是制造业大国，制造业占我国GDP比重超过三分之一，是支撑国家经济的重要力量。在当前社会激烈竞争与不断变化需求的市场中，很多企业的经营越来越困难，如：企业创新能力不足，竞争能力低，业务增长缓慢，内部管理不到位，生产效率不高，产品质量低等。我国的传统制造业发展进入了瓶颈期，传统制造业需要进行转型升级与加强核心技术竞争力。因此，结合互联网信息技术对我国的传统制造业进行改造和提升是非常有必要的。

“互联网+”行动计划已经成为国家战略，需利用信息通信技术把互联网与传统行业结合起来，从而在新领域创造一种新生态。对于目前制造型企业存在重业务、轻管理、重增长速度、轻生产质量的传统思想，就需要结合互联网平台拥有一个高智能化管理系统并加入大数据分析技术更有效的管理企业[1]。因此，在企业已有的ERP系统基础上实施大数据分析与研究，使其成为更加智能化信息管理系统[2]。

1 实施大数据分析的制造型企业ERP的总体需求

对于当前制造型企业需要实施大数据技术的企业ERP系统的总体需求是实现产、供、销、研发、服务一体化的信息集成平台，避免有孤立的信息，帮助企业在整体经营管理水平上有所提高。实现财务管理业务一体化，使财务数据及时准确来源于业务，并为销售业务提供有效信息，为企业决策提供全面和及时的经营信息。完善企业内部业务流程与体系，改善运营效率。构建企业业务运营监控平台，通过大数据日志分析系统帮助企业改善市场运营决策，获取对企业运营至关重要的信息[3]。

2 实施大数据分析的制造型企业ERP的整体架構

大数据技术可以应用在企业的生产管理、采购管理、库存管理、财务管理等很多方面。对制造型企业使用ERP系统产生的数据信息存放在多台Nginx负载均衡服务器上，使用Apache Flume采集数据工具，在服务器上部署多个Agent节点，将采集到的数据汇聚到指定的HDFS（Hadoop Distributed File System）Hadoop分布式文件系统目录中。特点是可以把庞大的数据资源进行集中机制管理并处理[4]。再经过MapReduce分布式并行计算对大量数据进行预处理，处理后的数据放入Hive数据仓库中。使用Sqoop工具将Hadoop里面的数据也就是存放在Hive数据仓库中的数据导出到关系型数据库中如Mysql、Oracle等。最后以网页Web形式将数据信息以图表形式展现[5]。系统的数据分析不是一次性的，而是按照一定的时间频率反复计算，因而整个处理链条中的各个环节需要按照一定的先后依赖关系紧密衔接，即涉及到大量任务单元的管理调度，所以，项目中需要添加一个任务调度模块。

2.1 数据源

数据源是大数据分析的数据来源，主要是企业ERP系统中各个子系统运行所产生的数据信息（如采购管理子系统、仓库管理子系统、生产管理子系统）及其他相关的数据，这些数据都是企业在运营中产生的[6]。因此关于企业的一系列业务流程都是产生数据的来源，一般制造型企业业务流程如图2所示。

2.2 数据采集

ERP系统中产生的一部分数据属于常规的结构化数据，有企业员工信息、物料库存信息、产品信息、固定客户信息等，这些数据信息可以直接存在传统关系型数据库（Mysql、Oracle、SQL Server）中，方便查询操作[7]。

对于ERP系统中日志数据信息的生成渠道有如下几种方式。

⑴ 是网站的Web服务器记录的Web访问日志。

⑵ 是通过在页面嵌入自定义的js代码来获取用户的所有访问行为（比如鼠标悬停的位置，点击的页面组件等），然后通过ajax请求到后台记录日志。这种方式所能采集的信息最全面。

⑶ 通过在页面上埋点1像素的图片，将相关页面访问信息请求到后台记录日志。

在实际操作中可以被采集的数据信息有用户使用ERP系统的行为操作情况、产品的实际生产情况、业务订单完成情况、产品销售情况等。在企业运行ERP时，其内部集成系统都是建立了一系列最基础的数据，这些基础数据对任何制造业基本上都是相同的，可以形成一种默认的标准。如图3所示为基础数据相互关系。

从ERP系统服务器上汇聚日志到HDFS，是数据分析系统的一个数据采集过程，具体的技术实现有很多方式。

⑴ Shell脚本。优点：轻量级，开发简单。缺点：对日志采集过程中的容错处理不便控制。

⑵ Java采集程序。优点：可对采集过程实现精细控制。缺点：开发工作量大。

⑶ Flume日志采集框架。成熟的开源日志采集系统，且本身就是Hadoop生态体系中的一员，与Hadoop体系中的各种框架组件具有天生的亲和力，可扩展性强。

在日志分析这种场景中，对数据采集部分的可靠性、容错能力等要求，通常不会非常严苛，因此使用通用的Flume日志采集框架完全可以满足需求。Flume采集实现：在ERP系统服务器上部署Agent节点，修改配置文件，启动Agent节点，把采集到的数据存放到指定的HDFS目录中，如图4所示。

2.3 数据预处理

数据预处理的主要目的是过滤“不合规”数据、格式转换和规整、根据后续的统计需求，过滤分离出各种不同主题的基础数据。由于采集到的数据大小不一且类型各异导致对存储和分析不方便，这里要使用到MapReduce计算工具，这是一个分布式运算程序的编程框架，是用户开发基于Hadoop的数据分析应用的核心框架。其核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上[8]。

使用MapReduce的几个主要因素如下。

⑴ 海量数据在单机上处理因为硬件资源限制，无法胜任。

⑵ 而一旦将单机版程序扩展到集群来分布式运行，将极大增加程序的复杂度和开发难度。

⑶ 引入MapReduce框架后，开发人员可以将绝大部分工作集中在业务逻辑的开发上，而将分布式计算中的复杂性交由框架来处理。MapReduce具体算法步骤如下表1所示。

2.4 数据存储

实施大数据分析过程是在Hadoop集群上实现，主要应用Hive数据仓库工具[9]。Hive是基于Hadoop的一个数据仓库工具，特点是可以把结构化的数据文件映射为数据库表，还可以使用SQL语法的查询功能。直接使用Hadoop所面临的问题有开发人员学习成本太高，一般企业项目周期要求短，MapReduce实现复杂查询逻辑开发难度太大等。而使用Hive的好处是操作接口采用类SQL语法，提供快速开发的能力，避免了去写MapReduce，减少开发人员的学习成本，扩展功能很方便等。如图5所示为Hive架构图，Job Tracker是Hadoop1.x中的组件，它的功能相当于：ResourceManager+AppMaster，而Task Tracker相当于：NodeManager+Yarnchild。

因此，采集并经过预处理后的数据，需要加载到Hive数据仓库中，以进行后续的挖掘分析。整个数据分析的过程是按照数据仓库的层次分层进行的，总体来说，是从ODS原始数据中整理出一些中间表（为后续分析方便，将原始数据中的时间、url等非结构化数据作结构化抽取，将各种字段信息进行细化，形成明细表），然后再在中间表的基础之上统计出各种指标数据。

一般企业的ERP系统使用的数据库都是为关系型数据库。为实施大数据分析研究，本文采用的数据库是在传统的关系型数据库的基础上结合HBase数据库进行存储管理数据。使用HBase的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。传统数据库遇到的问题有数据量很大的时候无法存储，没有很好的备份机制，数据达到一定数量开始缓慢，很大的话基本无法支撑等。HBase带来的好处是线性扩展，随着数据量增多可以通过节点扩展进行支撑，数据存储在HDFS上，备份机制健全，通过zookeeper协调查找数据，访问速度块等。

2.5 数据分析决策

大数据技术使企业ERP能够获得更多和更广泛的数据来源，减少企业对数据抽样和存储的全部信息的依赖度。利用大数据技术进行统计分析，每一种统计指标都可以跟各维度表进行叉乘，从而得出各个维度的统计结果。在实际生产中，究竟需要哪些统计指标通常由相关数据需求部门人员提出，而且会不断有新的统计需求产生。一般典型指标有PV统计包括多维度统计PV总量及人均浏览页数（如今日所有来访者，平均请求的页面数）。开发MapReduce程序，运行识别出访客的每次访问，将MapReduce程序运行后的结果导入到访客访问信息表中[10]。在访问信息表的基础上，可以实现更多指標统计，如：统计所有用户停留时间平均值，观察用户在站点停留时长的变化走势等。

2.6 数据展示

在大数据技术Hadoop中产生报表统计结果，由Sqoop从Hive表中导出。从系统数据的采集，到数据分析，再到结果数据的导出，一系列的任务被分割成若干个Oozie的工作流，并用Coordinator进行协调，最终，我们可以通过可视化的图表形式展示所产生的决策信息（如财务报表、销售统计等）。

在企业的数据分析系统中，数据图表展现一般是前端展现工具。有Web程序展现方式：通过独立的或者嵌入式的Java Web系统来读取报表统计结果，以网页的形式对结果进行展现，如100%纯Java的润乾报表[11]。一般制造型企业需要采用自己开发Web程序展现的方式，Web展现程序采用的技术框架：Jquery+Echarts+SpringMVC+Spring+Mybatis +Mysql。展现的流程：使用SSH从Mysql中读取要展现的数据，使用Json格式将读取到的数据返回给页面，在页面上用Eharts对Json解析并形成图表。如图6所示。

3 企业实施大数据分析构建ERP系统的优势、必要性

企业实施大数据分析构建ERP系统可以将用户行为、业务模式、员工管理都数据化。在信息化快速发展的时代，企业需要结合大数据和互联网思维来推动转型创新。一般企业ERP系统包括内部集成和外部集成两个方面，利用大数据技术对企业内部数据和外部数据进行整合利用。

内部集成，更多的是管理功能的扩展和业务流程的优化，让系统能够适应业务流程和业务规则的变化，做出相应的调整。一旦形成规范化的流程，系统会按照流程的顺序，在界面上设置操作按钮或提示，也可以确认后直接进入下一道程序，运行上更加便捷和灵活，集成面更广。

外部数据的对象主要是与产品信息相关的客户（需求信息）和供应商（供应信息）以及第三方物流，包括合同、计划、成本及报价、仓储、运输等信息。外部数据是实施大数据析对企业信息化管理不可或缺的组成部分，最终目的是沟通需求和供应，实现需求到供应端到端信息集成。做到真正依据客户的需求组织供应，依据需求的变化迅速及时调整供应，体现精益和敏捷，优化流程，强化薄弱环节，提升供需链的竞争优势。

4 结束语

本文通过对制造业企业ERP系统实施大数据分析与研究，利用大数据技术将企业的内部数据和外部数据进行整合，解决企业运营过程中出现的信息流问题，减少信息孤岛行为。有价值的数据信息是企业的利润来源，为企业管理者作出正确的策略。在大数据时代下，企业ERP系统与大数据结合才能使企业真正走上信息化道路发展。

参考文献（References）：

[1] 苗波波.大数据的信息力量[J].电脑迷，2014.3.

[2] 耿丽丽.大数据时代下企业构建ERP系统的重要性[J].中国

管理信息化，2014.22.

[3] 孟小峰，慈祥.大数据管理：概念、技术与挑战[J].计算机研究

与发展，2013.50（1）.

[4] Big-data conputing：Creating revolutionary breakthroughs

in commerce. Grobelnik M. science and society，2012.

[5] Hadoop.http：//hadoop.apache.org/index.html，2012.

[6] 王秀景.大数据对我国中小企业信息化影响分析[J].科技经

济市场，2014.2.

[7] 吴炜.企业管理信息化的建设途径[J].中国管理信息化，

2014.5.

[8] 程莹，张云勇，徐雷，房秉毅.基于Hadoop及关系型数据库的

海量数据分析研究[J].电信科学，2010.11.

[9] 吴明礼，张宏安，李也白.基于Hadoop的高性能数据仓库建

设研究[J].信息与电脑（理论版），2015.9.

[10] MapReduce： simplified data processing on large clusters.

Jeffrey Dean， Sanjay Ghemawat. Communications of the ACM，2008.

[11] 孟小峰，慈祥.大数据管理：概念、技术与挑战[J].計算机研究

与发展，2013.1.