大数据实时计算系统Storm从基础概念到深入学习
课程布景
实时计较需要处理一些什么题目
陪伴着信息科技日新月异的成长,信息显现出爆发式的收缩,人们获得信息的路子也加倍多样、加倍便利,同时对于信息的时效性要求也越来越高。举个搜索 场景中的例子,当一个卖家公布了一条宝贝信息时,他希望确固然是这个宝贝顿时便可以被卖家搜索出来、点击、采办啦,相反,假如这个宝贝要等到第二天大概更 久才可以被搜出来,估量这个年老就要骂娘了。再举一个保举的例子,假如用户昨天在淘宝上买了一双袜子,明天想买一副泳镜去泅水,可是却发现系统在竭尽尽力 地给他保举袜子、鞋子,底子对他明天寻觅泳镜的行为置若罔闻,估量这哥们心里就会想保举你妹呀。实在稍微领会点布景常识的码农们都晓得,这是由于背景系统 做的是天天一次的全量处置,而且大多是在夜深人静之时做的,那末你明天白天做的工作固然要明天赋能反应出来啦。
实现一个实时计较系统
全量数据处置利用的大多是鼎鼎台甫的hadoop大概hive,作为一个批处置系统,hadoop以其吞吐量大、自动容错等优点,在海量数据处置上 获得了普遍的利用。可是,hadoop不擅长实时计较,由于它自然就是为批处置而生的,这也是业界分歧的共鸣。否则比来这两年也不会有 s4,storm,puma这些实时计较系统如雨后春笋般冒出来啦。先抛开s4,storm,puma这些系统不谈,我们首先来看一下,假如让我们自己设 计一个实时计较系统,我们要处理哪些题目。
实现一个实时计较系统
低提早。都说了是实时计较系吐渌,提早是一定要低的。
高性能。性能不高就是浪费机械,浪费机械是要受批评的哦。
散布式。系统都是为利用处景而生的,假如你的利用处景、你的数据和计较单机就能搞定,那末不用斟酌这些复杂的题目了。我们所说的是单机搞不定的情况。
可扩大。陪伴着营业的成长,我们的数据量、计较劲能够会越来越大,所以希望这个系统是可扩大的。
容错。这是散布式系统中通用题目。一个节点挂了不能影响我的利用。
实现一个实时计较系统
好,假如仅仅需要处理这5个题目,能够会有无数种计划,而且各有千秋,随意举一种计划,利用消息行列+散布在各个机械上的工作进程就ok啦。我们再继续往下看。
轻易在上面开辟利用法式。亲,你设想的系统需要利用法式开辟职员斟酌各个处置组件的散布、消息的传递吗?假如是,那有点麻烦啊,开辟职员能够会用欠好,也不会想去用。
消息不丧失。用户公布的一个宝贝消息不能在实时处置的时辰给丢了,对吧?更严酷一点,假如是一个切确数据统计的利用,那末它处置的消息要不多很多才行。这个要求有点高哦。
消息严酷有序。有些消息之间是有强相关性的,比如同一个宝贝的更新和删除操纵消息,假如处置时搞乱顺序美满是纷歧样的结果了。
**** Hidden Message *****
页:
[1]