Twitter 大数据实时计算的经验分享

InfoQ / 2018年05月18日 15:12

互联网+

生活中,有很多事务需要实时分析处理:展示实时的趋势;基于某个名人明星发布的 Tweet 话题的公开会话讨论;实时为用户推荐最新资讯;用户的实时搜索……以上都是 Twitter 实时服务涵盖的实时场景。对于 Twitter 而言,实时性就是其产品的基石。

Twitter 每天要接收和处理用户发送的数十亿条推文。实时分析这些推文是一个巨大的挑战。为了保证每条推文处理的实时性和高效性,Twitter 在分布式流计算系统 Storm 的基础之上,投入了大量的人力,设计和开发了一套全新的实时计算系统——Heron。

Heron 是为大规模环境量身打造的下一代开源流媒体引擎。Heron 现在已经是 Apache 的孵化项目,它的 Contributor 除了来自 Twitter 外还有来自微软、Google、斯坦福等多个组织机构。Heron 在大规模上提供无与伦比的性能,并已成功满足各种流处理 Application 的价格 / 性能目标。

从 Twitter 实时计算框架的演进可以看出:提高计算的时效性,更快的从数据中挖掘出信息和知识就意味着能够获取更大的价值。最近,越来越多的企业对于实时数据技术架构感兴趣,从批处理向流计算机构的转型,是企业关于如何使用数据的一次技术革命。

但是,实时数据技术栈(包括流计算引擎、数据存储引擎、编程语言和工具)的最前沿现状又是什么呢?在这其中,又有哪些技术挑战?以及这些前沿技术怎么影响流计算的架构和应用呢?

不妨来 QCon 大会上海站的会前两天深度培训,和前 Twitter message group 的技术负责人一起深入讨论下实时数据技术栈的那些事儿。

大数据实时计算

现在越来越多的应用场景对数据处理有了高时效性的要求。如何能够更快的采集数据,实时的处理数据是当前各个新经济所面临的一个挑战。

为了满足以上需求,QCon 大会上海站开设了——《大数据实时计算》深度培训课程,邀请了在实时处理方面拥有丰富经验的两位讲师——郭斯杰、翟佳,于 10 月 16 日和大家一起分享 Twitter 、Yahoo 等大数据实时计算的实践经验。

首先,来认识下《大数据实时计算》的两位分享讲师:

郭斯杰,之前就职于 Twitter,任职 Staff Software Engineer,是 Twitter message group 的技术负责人。同时也是 Apache BookKeeper 的 PMC Chair, Apache DistributedLog 的 Co-Creator。加入 Twitter 之前,就职于 Yahoo。

翟佳,毕业于中科院计算所,目前就职于一家下一代实时处理初创公司 Streamlio,是 streamlio 的核心创始成员之一。在此之前任职于 EMC,是北京 EMC 实时处理平台的技术负责人。主要从事实时计算和分布式存储系统的相关开发,此外也在开源项目 Apache BookKeeper, Distributedlog,DC/OS 等项目中持续贡献代码。

两位讲师分享的大纲如下:

  • 流计算的简介以及一些典型应用

  • 流计算架构是什么

  • 不同类型的流计算架构及其优缺点

  • 流计算技术栈中的 messaging,compute 和 storage 三个层面

  • Messaging: Apache Pulsar 的特性和使用场景

  • Computing:Heron。详细讨论流计算引擎 Heron,以及它在现代实时数据技术栈里的使用场景

  • Storage:详细讨论为实时数据存储设计的 Apache BookKeeper/DistributedLog

  • 使用 Apache Pulsar, BookKeeper/DistributedLog 和 Heron 来搭建实时数据技术栈时获得的经验教训

如何参与培训?

深度培训在 QCon 大会前 2 天,10 月 15 日 -16 日在上海宝华万豪酒店举办,培训包括 10 小时的授课和 2 个小时的提问交流,沉浸式学习热门技术,除了《大数据实时计算》内容,还有《机器学习实践》的技术分享。

学习席位有限,点击 「阅读原文」即可进入大会官网,了解更多信息,点击官网“立即报名”按钮即可获取学习席位。返回搜狐,查看更多

责任编辑:

1.环球科技网遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.环球科技网的原创文章,请转载时务必注明文章作者和"来源:环球科技网",不尊重原创的行为环球科技网或将追究责任;3.作者投稿可能会经环球科技网编辑修改或补充。