2015 年 8 月 – Slaytanic

Hadoop运维记录系列(十六)

应了一个国内某电信运营商集群恢复的事，集群故障很严重，做了HA的集群Namenode挂掉了。具体过程不详，但是从受害者的只言片语中大概回顾一下历史的片段。

Active的namenode元数据硬盘满了，满了，满了…上来第一句话就如雷贯耳。
运维人员发现硬盘满了以后执行了对active namenode的元数据日志执行了 echo “” > edit_xxxx-xxxx…第二句话如五雷轰顶。
然后发现standby没法切换，切换也没用，因为standby的元数据和日志是5月份的…这个结果让人无法直视。

Continue reading Hadoop运维记录系列(十六) →