kavy

浏览: 865717 次
性别:
来自: 上海

最近访客更多访客>>

15286802013

一往无前bhz

林祥纤

a13143457381

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

分布式服务框架 Zookeeper

博客分类：

技术内容

zookeeper介绍

文中包含的几个部分的图片无法显示，可以到：http://note.youdao.com/share/?id=3651565d31662d82cd6e2d5abbd99749&type=note 查看全文，

文中的各个部分都给出了引用链接，也可以直接查看

目录：

1、分布式服务框架 Zookeeper -- 管理分布式环境中的数据

2、简单的例子

3、ZooKeeper的实现机理

4、ZooKeeper的应用领域http://blog.csdn.net/y_xianjun/article/details/8190500

5、ZooKeeper分布式锁

6、ZooKeeper一致性协议-Zab

7、ZooKeeper选举和同步

一些有用的link:

http://www.cnblogs.com/mandela/archive/2011/08/09/2132122.html

http://blog.csdn.net/cnhzgb/article/details/7700026

1、分布式服务框架 Zookeeper -- 管理分布式环境中的数据

详细内容参见 link：http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/

分布式服务框架 Zookeeper -- 管理分布式环境中的数据

许令波, Java 工程师, 淘宝网

简介： Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。本文将从使用者角度详细介绍 Zookeeper 的安装和配置文件中各个配置项的意义，以及分析 Zookeeper 的典型的应用场景（配置文件的管理、集群管理、同步锁、Leader 选举、队列管理等），用 Java 实现它们并给出示例代码。

2、简单的例子:

link：http://www.oschina.net/p/zookeeper

假设我们我们有个20个搜索引擎的服务器(每个负责总索引中的一部分的搜索任务)和一个总服务器(负责向这20个搜索引擎的服务器发出搜索请求并合并结果集),一个备用的总服务器(负责当总服务器宕机时替换总服务器),一个web的 cgi(向总服务器发出搜索请求).搜索引擎的服务器中的15个服务器现在提供搜索服务,5个服务器正在生成索引.这20个搜索引擎的服务器经常要让正在提供搜索服务的服务器停止提供服务开始生成索引,或生成索引的服务器已经把索引生成完成可以提供搜索服务了.使用Zookeeper可以保证总服务器自动感知有多少提供搜索引擎的服务器并向这些服务器发出搜索请求,备用的总服务器宕机时自动启用备用的总服务器,web的cgi能够自动地获知总服务器的网络地址变化.这些又如何做到呢?

提供搜索引擎的服务器都在Zookeeper中创建znode,zk.create("/search/nodes/node1",
"hostname".getBytes(), Ids.OPEN_ACL_UNSAFE, CreateFlags.EPHEMERAL);
总服务器可以从Zookeeper中获取一个znode的子节点的列表,zk.getChildren("/search/nodes", true);
总服务器遍历这些子节点,并获取子节点的数据生成提供搜索引擎的服务器列表.
当总服务器接收到子节点改变的事件信息,重新返回第二步.
总服务器在Zookeeper中创建节点,zk.create("/search/master", "hostname".getBytes(), Ids.OPEN_ACL_UNSAFE, CreateFlags.EPHEMERAL);
备用的总服务器监控Zookeeper中的"/search/master"节点.当这个znode的节点数据改变时,把自己启动变成总服务器,并把自己的网络地址数据放进这个节点.
web的cgi从Zookeeper中"/search/master"节点获取总服务器的网络地址数据并向其发送搜索请求.
web的cgi监控Zookeeper中的"/search/master"节点,当这个znode的节点数据改变时,从这个节点获取总服务器的网络地址数据,并改变当前的总服务器的网络地址.

3、ZooKeeper的实现机理

    link：http://bbs.zoomla.cn/archiver/showtopic-15086.aspx
    ZooKeeper的实现机理是我看过的开源框架中最复杂的，它的解决是分布式环境中的一致性问题，这个场景也决定了其实现的复杂性。看了两三天的源码还是有些摸不着头脑，有些超出了我的能力，不过通过看文档和其他高人写的文章大致清楚它的原理和基本结构。
1）ZooKeeper的基本原理
    ZooKeeper是以Fast Paxos算法为基础的（不是zab？），在前一篇blog中大致介绍了一下paxos，而没有提到的是paxos存在活锁的问题，也就是当有多个proposer交错提交时，有可能互相排斥导致没有一个proposer能提交成功，而Fast Paxos作了一些优化，通过选举产生一个leader，只有leader才能提交propose，具体算法可见Fast Paxos。因此，要想弄得ZooKeeper首先得对Fast Paxos有所了解。
2）ZooKeeper的基本运转流程
ZooKeeper主要存在以下两个流程：
    选举Leader
    同步数据
选举Leader过程中算法有很多，但要达到的选举标准是一致的：
Leader要具有最高的zxid
集群中大多数的机器得到响应并follow选出的Leader
同步数据这个流程是ZooKeeper的精髓所在，并且就是Fast Paxos算法的具体实现。一个牛人画了一个ZooKeeper数据流动图，比较直观地描述了ZooKeeper是如何同步数据的。
以上两个核心流程我暂时还不能悟透其中的精髓，这也和我还没有完全理解Fast Paxos算法有关，有待后续深入学习

4、ZooKeeper的应用领域

Tim在blog中提到了Paxos所能应用的几个主要场景，包括database replication、naming service、config配置管理、access control list等等，这也是ZooKeeper可以应用的几个主要场景。此外，ZooKeeper官方文档中提到了几个更为基础的分布式应用，这也算是ZooKeeper的妙用吧
1）分布式Barrier
Barrier是一种控制和协调多个任务触发次序的机制，简单说来就是搞个闸门把欲执行的任务给拦住，等所有任务都处于可以执行的状态时，才放开闸门。它的机理可以见下图所示
：
在单机上JDK提供了CyclicBarrier这个类来实现这个机制，但在分布式环境中JDK就无能为力了。在分布式里实现Barrer需要高一致性做保障，因此ZooKeeper可以派上用场，所采取的方案就是用一个Node作为Barrer的实体，需要被Barrer的任务通过调用exists()检测这个Node的存在，当需要打开Barrier的时候，删掉这个Node，ZooKeeper的watch机制会通知到各个任务可以开始执行。

2）分布式Queue
与Barrier类似分布式环境中实现Queue也需要高一致性做保障，ZooKeeper提供了一个种简单的方式，ZooKeeper通过一个Node来维护Queue的实体，用其children来存储Queue的内容，并且ZooKeeper的create方法中提供了顺序递增的模式，会自动地在name后面加上一个递增的数字来插入新元素。可以用其children来构建一个queue的数据结构，offer的时候使用create，take的时候按照children的顺序删除第一个即可。ZooKeeper保障了各个server上数据是一致的，因此也就实现了一个分布式Queue。take和offer的实例代码如下所示
：示例.txt

3）分布式lock
利用ZooKeeper实现分布式lock，主要是通过一个Node来代表一个Lock，当一个client去拿锁的时候，会在这个Node下创建一个自增序列的child，然后通过getChildren()方式来check创建的child是不是最靠前的，如果是则拿到锁，否则就调用exist()来check第二靠前的child，并加上watch来监视。当拿到锁的child执行完后归还锁，归还锁仅仅需要删除自己创建的child，这时watch机制会通知到所有没有拿到锁的client，这些child就会根据前面所讲的拿锁规则来竞争锁。

5、ZooKeeper分布式锁

（a）基于zookeeper实现的分布式锁

link：http://www.jiacheo.org/blog/122

分布式锁在一组进程之间提供了一种互斥机制，在任何时刻，只有一个进程可以持有锁。

zookeeper是hadoop下面的一个子项目, 用来协调跟hadoop相关的一些分布式的框架, 如hadoop, hive, pig等, 其实他们都是动物, 所以叫zookeeper(本人歪歪).

zookeeper其实是集群中每个节点都维护着一棵相同的树, 树的结构跟linux的目录结构的概念差不多, 以/为跟节点, 下边可以扩展任意的节点和叶子节点, 每个节点都可以写入数据. 基于zookeeper的分布式锁的实现, 其实是得益于zookeeper同步文件的强大性, 我们相信每时每刻我们访问zookeeper的树时, 相同节点返回的数据都是一致的. 这要靠zookeeper内部的一些算法来实现. 特别是leader的选举算法, 这里就不说了, 感兴趣的话可以去搜索一下看看.

我们知道了zookeeper集群的每个节点的数据都是一致的, 那么我们可以通过这些节点来作为锁的标志.

首先给锁设置一下API, 至少要包含, lock(锁住), unlock(解锁), isLocked(是否锁住)三个方法

然后我们可以创建一个工厂(LockFactory), 用来专门生产锁.

锁的创建过程如下描述:

前提:每个锁都需要一个路径来指定(如:/jiacheo/lock)

1.根据指定的路径, 查找zookeeper集群下的这个节点是否存在.(说明已经有锁了)

2. 如果存在, 根据查询者的一些特征数据(如ip地址/hostname), 当前的锁是不是查询者的

3. 如果不是查询者的锁, 则返回null, 说明创建锁失败

4. 如果是查询者的锁, 则把这个锁返回给查询者

5. 如果这个节点不存在, 说明当前没有锁, 那么创建一个临时节点, 并将查询者的特征信息写入这个节点的数据中, 然后返回这个锁.

根据以上5部, 一个分布式的锁就可以创建了.

创建的锁有三种状态:

1. 创建失败(null), 说明该锁被其他查询者使用了.’

2. 创建成功, 但当前没有锁住(unlocked), 可以使用

3. 创建成功, 但当前已经锁住(locked)了, 不能继续加锁.

如图, 如果我们getLock(“/jiacheo/lock1″,”192.168.0.100″), 想要获取/jiacheo/lock1这个锁的话, 我们先判断这个节点是否存在, 存在的话获取他的数据(data), 然后通过解析data, 我们可以知道这个节点是不是我们查询者创建的(通过ip地址写入节点数据中), 然后就可以返回一个锁了.

正确实现一个分布式锁是一件非常棘手的事情，因为很难对所有类型的故障进行正确的处理，ZooKeeper带有一个Java语言编写的生产级别的锁实现，名为WriteLock，客户端可以方便的使用它。

（b）zookeeper分布式锁

link：http://www.searchtb.com/2011/01/zookeeper-research.html

拥有了zookeeper如此强大的分布式协作系统后,我们可以很容易的实现大量的分布式应用,包括了分布式锁,分布式队列,分布式Barrier,双阶段提交等等. 这些应用可以帮我们改进很多复杂系统的协作方式,将这些系统的实现变得更加优雅而高效.鉴于篇幅,本文仅介绍分布式锁的实现.
利用了前文提到的sequence nodes可以非常容易的实现分布式锁. 实现分布式锁的基本步骤如下(这些步骤需要在所有需要锁的客户端执行):

client调用create()创建名为”_locknode_/lock-”的节点,注意需要设置sequence和ephemeral属性
client调用getChildren(“_locknode_”),注意不能设置watch,这样才能避免羊群效应
如果步骤1中创建的节点序号最低,则该client获得锁,开始执行其它程序
client对lock-xxx中序号仅次于自己创建节点的那个节点调用exists(),并设置watch
如果exist()返回false(节点不存在)则回到步骤2,否则等待步骤4中的watch被触发并返回步骤2

分布式锁在zookeeper的源代码中已经有实现,可以参考org.apache.zookeeper.recipes.lock

6、ZooKeeper一致性协议-Zab

link：http://blog.csdn.net/chen77716/article/details/7309915

Zookeeper的一致性协议：Zab

分类：分布式算法2012-03-01 15:39 2657人阅读评论(3) 收藏举报

crash 算法 server 存储工作 yahoo

目录(?)[+]

Zookeeper使用了一种称为Zab（Zookeeper Atomic Broadcast）的协议作为其一致性复制的核心，据其作者说这是一种新发算法，其特点是充分考虑了Yahoo的具体情况：高吞吐量、低延迟、健壮、简单，但不过分要求其扩展性。下面将展示一些该协议的核心内容：

另，本文仅讨论Zookeeper使用的一致性协议而非讨论其源码实现

Zookeeper的实现是有Client、Server构成，Server端提供了一个一致性复制、存储服务，Client端会提供一些具体的语义，比如分布式锁、选举算法、分布式互斥等。从存储内容来说，Server端更多的是存储一些数据的状态，而非数据内容本身，因此Zookeeper可以作为一个小文件系统使用。数据状态的存储量相对不大，完全可以全部加载到内存中，从而极大地消除了通信延迟。

Server可以Crash后重启，考虑到容错性，Server必须“记住”之前的数据状态，因此数据需要持久化，但吞吐量很高时，磁盘的IO便成为系统瓶颈，其解决办法是使用缓存，把随机写变为连续写。

考虑到Zookeeper主要操作数据的状态，为了保证状态的一致性，Zookeeper提出了两个安全属性（Safety Property）

全序（Total order）：如果消息a在消息b之前发送，则所有Server应该看到相同的结果
因果顺序（Causal order）：如果消息a在消息b之前发生（a导致了b），并被一起发送，则a始终在b之前被执行。

为了保证上述两个安全属性，Zookeeper使用了TCP协议和Leader。通过使用TCP协议保证了消息的全序特性（先发先到），通过Leader解决了因果顺序问题：先到Leader的先执行。因为有了Leader，Zookeeper的架构就变为：Master-Slave模式，但在该模式中Master（Leader）会Crash，因此，Zookeeper引入了Leader选举算法，以保证系统的健壮性。归纳起来Zookeeper整个工作分两个阶段：

Atomic Broadcast
Leader选举

1. Atomic Broadcast

同一时刻存在一个Leader节点，其他节点称为“Follower”，如果是更新请求，如果客户端连接到Leader节点，则由Leader节点执行其请求；如果连接到Follower节点，则需转发请求到Leader节点执行。但对读请求，Client可以直接从Follower上读取数据，如果需要读到最新数据，则需要从Leader节点进行，Zookeeper设计的读写比例是2：1。

Leader通过一个简化版的二段提交模式向其他Follower发送请求，但与二段提交有两个明显的不同之处：

因为只有一个Leader，Leader提交到Follower的请求一定会被接受（没有其他Leader干扰）
不需要所有的Follower都响应成功，只要一个多数派即可

通俗地说，如果有2f+1个节点，允许f个节点失败。因为任何两个多数派必有一个交集，当Leader切换时，通过这些交集节点可以获得当前系统的最新状态。如果没有一个多数派存在（存活节点数小于f+1）则，算法过程结束。但有一个特例：

如果有A、B、C三个节点，A是Leader，如果B Crash，则A、C能正常工作，因为A是Leader，A、C还构成多数派；如果A Crash则无法继续工作，因为Leader选举的多数派无法构成。

2. Leader Election

可以参考：http://www.codedump.info/?p=224

Leader选举主要是依赖Paxos算法，具体算法过程请参考其他博文，这里仅考虑Leader选举带来的一些问题。Leader选举遇到的最大问题是，”新老交互“的问题，新Leader是否要继续老Leader的状态。这里要按老Leader Crash的时机点分几种情况：

老Leader在COMMIT前Crash（已经提交到本地）
老Leader在COMMIT后Crash，但有部分Follower接收到了Commit请求

第一种情况，这些数据只有老Leader自己知道，当老Leader重启后，需要与新Leader同步并把这些数据从本地删除，以维持状态一致。

第二种情况，新Leader应该能通过一个多数派获得老Leader提交的最新数据

老Leader重启后，可能还会认为自己是Leader，可能会继续发送未完成的请求，从而因为两个Leader同时存在导致算法过程失败，解决办法是把Leader信息加入每条消息的id中，Zookeeper中称为zxid，zxid为一64位数字，高32位为leader信息又称为epoch，每次leader转换时递增；低32位为消息编号，Leader转换时应该从0重新开始编号。通过zxid，Follower能很容易发现请求是否来自老Leader，从而拒绝老Leader的请求。

因为在老Leader中存在着数据删除（情况1），因此Zookeeper的数据存储要支持补偿操作，这也就需要像数据库一样记录log。

3. Zab与Paxos

Zab的作者认为Zab与paxos并不相同，只所以没有采用Paxos是因为Paxos保证不了全序顺序：

Because multiple leaders can
propose a value for a given instance two problems arise.
First, proposals can conflict. Paxos uses ballots to detect and resolve conflicting proposals. 
Second, it is not enough to know that a given instance number has been committed, processes must also be able to figure out which value has been committed.

Paxos算法的确是不关系请求之间的逻辑顺序，而只考虑数据之间的全序，但很少有人直接使用paxos算法，都会经过一定的简化、优化。

一般Paxos都会有几种简化形式，其中之一便是，在存在Leader的情况下，可以简化为1个阶段（Phase2）。仅有一个阶段的场景需要有一个健壮的Leader，因此工作重点就变为Leader选举，在考虑到Learner的过程，还需要一个”学习“的阶段，通过这种方式，Paxos可简化为两个阶段：

之前的Phase2
Learn

如果再考虑多数派要Learn成功，这其实就是Zab协议。Paxos算法着重是强调了选举过程的控制，对决议学习考虑的不多，Zab恰好对此进行了补充。

之前有人说，所有分布式算法都是Paxos的简化形式，虽然很绝对，但对很多情况的确如此，但不知Zab的作者是否认同这种说法？

4.结束

本文只是想从协议、算法的角度分析Zookeeper，而非分析其源码实现，因为Zookeeper版本的变化，文中描述的场景或许已找不到对应的实现。另，本文还试图揭露一个事实：Zab就是Paxos的一种简化形式。

【参考资料】

A simple totally ordered broadcast protocol
paxos

7、ZooKeeper选举和同步

link：http://blog.csdn.net/cnhzgb/article/details/7700026

zookeeper

2012-06-28 17:19 301人阅读评论(0) 收藏举报

集群算法 server 存储

http://stblog.baidu-tech.com/?p=1164

用于分布式下一致性相关问题的解决方案。可以理解为由集群组成的可靠的单master。可将传统方案中的master使用zookeeper代替，且不用担心单点问题。

应用场景：树状结构的命名服务、节点数据变更的消息通知、分布式共享锁、配置数据的集中存放、集群中节点机器的状态管理及状态变更通知

zookeeper实现分布式锁：通过zookeeper的节点状态进行条件判断，如果不满足，则在客户端本地加锁等待Object.wait()。利用zookeeper的实时通知机制，当zookeeper的节点满足条件状态时，客户端会同步获得通知，然后在本地解锁Object.notifyAll()。从而实现了分布式加锁、阻塞、解锁。

三类角色： leader（处理写请求，单点）、follower（处理客户端请求，参与投票）、observer（不投票，只处理客户端请求）

恢复模式：服务重启或者leader宕机后，通过paxos算法，从follower中重新选出leader，并以leader为准，进行数据同步。此时服务不可用。

paxos选举算法：

1、每次选举，都是针对某个txid（transaction id）进行。

2、每个follower首先广播询问，获取其它所有server的txid、提议value，txid必须相同，value存储到提议列表中

3、follower从提议列表中获取value，如果这个value被大于一半的follower支持，则直接使用此value，否则，继续发出广播询问。并且将此value作为回答其它follower轮训的提议。

4、循环执行3，直到收敛

paxos的精髓：解决了集群中，非全联通情况下的一致性问题。对于正常全联通情况，每台机器只需要广播获取其它各台机器的数据，然后比较获取最大值即可。这样各个节点得到的结论应该是一样的。问题在于，某些节点之间是不联通的。于是某个节点无法获知全局数据，只能通过paxos中循环投票，收敛至全局最优解。

同步流程：选举完成后，各个follower向leader发送同步请求，带上自己的最大zxid。leader通过zxid确定同步点，将这之后的commit log交给follower进行同步。所有节点都保存一份系统状态数据，非强一致（getData不保证最新数据，可以先sync一下保证数据的同步状态），有同步延时。

多节点可读可写，部分节点延时同步，最终一致性。follower和observer负责监听客户请求和处理读请求。对于所有写请求，都一律转发至leader进行选举和数据同步。observer不参与投票，只做数据同步，提高写请求的效率。

转自：http://www.cnblogs.com/lpshou/archive/2013/06/14/3136888.html

分享到：

linux压缩解压文件 | linux查看内存的大小

2014-06-13 16:48
浏览 2036
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

分布式服务框架 Zookeeper

zookeeper介绍

分布式服务框架 Zookeeper -- 管理分布式环境中的数据

（a）基于zookeeper实现的分布式锁

Zookeeper的一致性协议：Zab

1. Atomic Broadcast

2. Leader Election

3. Zab与Paxos

4.结束

zookeeper

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

分布式服务框架 Zookeeper

zookeeper介绍

分布式服务框架 Zookeeper -- 管理分布式环境中的数据

（a）基于zookeeper实现的分布式锁

Zookeeper的一致性协议：Zab

1. Atomic Broadcast

2. Leader Election

3. Zab与Paxos

4.结束

zookeeper

评论

发表评论

相关推荐

Spring Boot 架构

Redis单线程的正确理解

SpringBoot2.x整合线程池（ThreadPoolTaskExecutor）

浅析springboot自动配置原理

使用redis管道(pipeline)实现批量查询,批量修改

Idea快捷键大全

图解Tomcat类加载机制

kafka查询和修改topic的offset

kafka基本原理介绍，以及重新选举，replica复制机制，isr等

Zookeeper 在 Kafka 中的作用

netty4多连接客户端设计与实现

数据一致性

JVM GC原理

分布式存储系统概要

Kafka 0.11.0.0 是如何实现 Exactly-once 语义的

分布式系统的经典基础理论

分布式系统的经典基础理论——中心化与去中心化

服务注册中心，Eureka与Zookeeper比较

Redis分布式锁

Springboot-Redis分布式锁

最近访客更多访客>>