2014 年 – Slaytanic

Hadoop的word co-occurrence实现

Word Co-occurrence一直不知道该怎么正确翻译, 单词相似度?还是共生单词?还是单词的共生矩阵?

这在统计里面是很常用的文本处理算法,用来度量一组文档集中所有出现频率最接近的词组.嗯,其实是上下文词组,不是单词.算是一个比较常用的算法,可以衍生出其他的统计算法.能用来做推荐,因为它能够提供的结果是”人们看了这个,也会看那个”.比如做一些协同过滤之外的购物商品的推荐,信用卡的风险分析,或者是计算大家都喜欢什么东西. Continue reading Hadoop的word co-occurrence实现 →

Hadoop2的ResourceManager高可用配置

Hadoop 2.2没怎么关注过，太新，bug太多。2.4出来以后关注了一些东西，比如2.4里面直接带了ResourceManager的高可用，这点比较吸引人。之前2.2没注意有没有，貌似是没有，然后CDH自己出了一个解决方案，这次2.4的更新直接自己带了，还不错，这样就全了，Namenode有HA和Federation，RM也有了HA，而且也可以通过ZKFC自动做故障切换。大概从2.4开始，Hadoop就可以往生产环境逐渐切换了。 Continue reading Hadoop2的ResourceManager高可用配置 →

Hadoop运维记录系列(十三)

记录一下在2.x里面不会很常见的报错。只是在测试集群中发生，生产集群大概很少有人会去重启Namenode吧，特别是做了HA的。

场景是在2.x里做好了Namenode HA，以Namespace URI方式访问HDFS时，报错，然后两个Namenode貌似都是standby，然后历史任务服务器无法启动，HBase的Master也无法启动。其实这个故障很简单。 Continue reading Hadoop运维记录系列(十三) →

阿姆憨杜普(ARM Hadoop)集群荣获硬蛋大赛奖项

基于arm架构硬件的Hadoop HBase集群参加了首届科通芯城的硬蛋i未来硬件创新大赛，进入决赛，最后拿到了十佳项目。有奖杯为证。 Continue reading 阿姆憨杜普(ARM Hadoop)集群荣获硬蛋大赛奖项 →

给刚玩Hadoop的朋友一些建议

随着两会中间央视新闻天天说大数据，很多人纷纷开始关注大数据和Hadoop以及数据挖掘和数据可视化了，我现在创业，遇到很多传统数据行业往Hadoop上面去转型的公司和个人，提了很多问题，大多数问题还都是差不多的。所以我想整理一些，也可能是很多人都关注的问题。

关于Hadoop版本的选择？
Continue reading 给刚玩Hadoop的朋友一些建议 →

写几个Hadoop部署用到的小脚本

最近抛弃非ssh连接的hadoop集群部署方式了，还是回到了用ssh key 验证的方式上了。这里面就有些麻烦，每台机器都要上传公钥。恰恰我又是个很懒的人，所以写几个小脚本完成，只要在一台机器上面就可以做公钥的分发了。 Continue reading 写几个Hadoop部署用到的小脚本 →

搭建红外遥控arm-hadoop集群过程

很多人玩开发板用树莓派，树莓派的确很好，但是对于hadoop来说，内存有点小，只有512MB。所以我找了一圈，最后用的是国内一个开源硬件团队的产品叫CubieTruck。内存有2G，板载存储有8G，千兆网口，可以挂载2.5寸机械或SSD硬盘。

Continue reading 搭建红外遥控arm-hadoop集群过程 →

Hadoop自动化运维之创建deb包

2014第一篇博文，将来也会逐步写成一个系列，新年新气象。

将hadoop及其周边生态系统deb/rpm化对于自动化运维来说意义重大，建立好整个生态的rpm和deb然后再创建本地yum或者apt的源，可大大简化hadoop的部署和运维。实际上，cloudera和hortonworks都是这么做的。 Continue reading Hadoop自动化运维之创建deb包 →