大数据和云计算平台与应用研究

中国新通信 / 2018年10月09日 12:41

互联网+

李怀国+姚晓乐

【摘要】 文章首先简要阐述了大数据与云计算平台,在此基础上对大数据和云计算平台的应用进行论述。期望通过本文的研究能够对大数据与云计算平台在相关领域中的推广应用有所帮助。

【关键词】 大数据 云计算平台 应用

一、大数据与云计算平台概述

1、大数据的特征。大数据又被IT业称之为巨量数据集合,具体是指无法在某个特定时间范围内用常规的软件工具进行捕捉、管理和处理的数据集合,是一种海量、多样化、高增长率的信息资产。大数据的特征主要体现在如下几个方面:超大的容量、繁多的种类、获取数据的高速、数据质量真实可靠、数据来源渠道复杂等等。信息时代到来的今天,数据信息在生产生活中的重要性日益凸显,大数据的发展速度也变得越来越快,对信息处理提出了更高的要求,即需要在短时间内对数据库进行有关的操作与处理,为满足这一需求,大数据技术应运而生。

2、云计算平台的优势。云计算是以网络为平台,利用远程连接的计算机获取所需计算服务,该计算机可供给弹性伸缩的计算资源,可提高资源利用效率,节省因重复配置资源增加的成本。云计算的优点:1.计算能力强。云计算可对计算机集群中的CPU进行远程调用,使其具备强大的计算能力,每秒高达10万亿次运算。2.可靠性高。云计算使用数据容错技术和计算节点同构可互换措施,能够保证云计算服务的可靠性。3.使用成本低。云计算采用自动化集中式管理,按需分配使用硬件资源,无需支付数据管理成本。

3、大数据与云计算平台的关系。大数据与云计算的联系紧密,两者均能够为数据资源提供存储、访问和计算的平台。对于云计算而言,其核心技术为数据处理技术,最终目的是为国家、企业和个人提供便捷服务,这与大数据的发展目的一致。大数据拥有丰富的数据资源,能够与云计算平台共同一个平台,进行大数据分析与计算,两者的相似度极高。

二、大数据和云计算平台的应用

大数据和云计算平台的应用现已遍及多个领域,其在各个领域中均具有其它技术不可替代的作用。下面本文重点对其中的关键技术及具体应用进行分析。

2.1 Hadoop技术及其应用

1、Hadoop技术。这是一个开源软件框架,具有海量数据分布式处理的能力,其支持PB级海量数据,并且可扩展性极强。该技术的高效性、可扩展性、可靠性、开源特性,使其获得了快速发展,并在很多平台中得到了应用。

2、具体应用。①在百度中的应用。百度是提供数据搜索服务的重要平台,在海量数据中百度能够通过语义分析精准搜索到关键字以及用户想要的结果。百度的海量数据处理平台基于Hadoop而建立,每天处理的数据量十分庞大,约为20PB,处理的任务数超过120000个。百度数据处理平台主要应用于以下方面:分析挖掘商业数据,如展示与点击广告;存储、分析、搜索日志;分析、爬取网页;用户行为挖掘,如用户关联与推荐。②在腾讯中的应用。腾讯是我国互联网行业先进技术与平台的代表,涵盖电子商务、社交网络、新闻门户、网络游戏、搜索等服务项目,其拥有自主研发的云计算平台,即台风(Typhoon),能够大批量处理在线数据与离线数据。此外,腾讯基于Hadoop建立了海量数据处理平台,用以解决数据挖掘、网页分析等特殊问题。腾讯进一步扩展了Hyphoon平台,使其能够支持Hadoop程序运行,既发挥了Hadoop的优势,又提高了资源利用率。

2.2 Spark技术及其应用

1、Spark技术。这是一款基于内存计算的分布式计算系统,通过它可对大数据进行快速地分析处理。由于该技术是基于内存计算实现,从而使得数据的分析处理速度获得了大幅度提升,对于实时性要求较高的数据分析处理,该技术非常适用。不仅如此,Spark对Hadoop还具有高度的兼容性。

2、具体应用。①在雅虎中的应用。雅虎对Spark技术的应用主要体现在利用该技术实现Audience Expansion 算法,这是一种在广告中寻找目标用户的算法,借助Spark集群,可以实现对目标用户的快速寻找及交互式查询。现阶段,在雅虎上部署的Spark集群有112台节点,内存为9.2TB。②在优酷土豆中的应用。优酷土豆原本使用的是Hadoop集群,在使用中存发现以下几个方面的问题:一是在BI方面,分析师提交相关任务之后,需要较长时间才能收到分析结果;二是在大数据量的计算方面效率不高;三是迭代运算耗费的资源过多且速度较慢。通过Spark技术的应用,可以使上述问题获得有效解决。Spark技术的交互查询响应速度快,其性能要高出Hadoop數倍,在模拟广告投放的计算上,效率更高、延迟更小,迭代计算基本不会占用过多的资源,大幅度提升了计算性能。正因如此,使Spark技术在优酷土豆的视频推荐及广告业务中获得了广泛应用。

结论:综上所述,大数据与云计算平台以自身所具备的诸多优越性,在多个重要领域中获得越来越广泛的应用,这对于促进各个领域的发展具有重要的现实意义。在未来一段时期,应当进一步加大对其的研究力度,在现有的基础上使大数据与云计算平台更加完善,为大范围推广应用奠定基础。

参 考 文 献

[1]毕建新,陈雅,郑建明.面向科学大数据的云计算平台构建研究——以东南大学为例[J].现代教育技术,2013(10):103-104.

[2]马学梅.大数据和云计算平台应用探究[J].信息化建设,2016(7):46-47.

1.环球科技网遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.环球科技网的原创文章,请转载时务必注明文章作者和"来源:环球科技网",不尊重原创的行为环球科技网或将追究责任;3.作者投稿可能会经环球科技网编辑修改或补充。