Page 4 of 5
1 2 3 4 5

Hadoop运维记录系列(十四)

周末去了趟外地,受托给某省移动公司(经确认更正,是中国移动位置基地,不是省公司)做了一下Hadoop集群故障分析和性能调优,把一些问题点记录下来。 该系统用于运营商的信令数据,大约每天1T多数据量,20台Hadoop服务器,赞叹一下运营商乃真土豪,256G内存,32核CPU,却挂了6块2T硬盘。还有10台左右的服务器是64G内存,32核CPU,4~6块硬盘,据用户反馈,跑数据很慢,而且会有失败,重[...]

解决Ubuntu更新nVidia显卡驱动后黑屏问题

跟大数据没关系,自己使用的一个记录。 现在已经完全抛弃windows了,完全用ubuntu来干活了。不是windows不好,是中国的windows生态环境太差了,随便装个国产小软件会附带给用户装一堆垃圾的东西,什么各种毒霸,各种手机助手,各种输入法,稍微点错个什么按钮就装一堆的垃圾,到处都是陷阱,就连开源的SourceForge推出的FileZilla安装器,后台还偷偷自动下载Norton 360[...]

OpenWRT嵌入式Linux故障排除一例

跟大数据没关系,只是帮朋友忙排了个错记录一下。 以前关系很不错的同事,目前在企业级wifi领域创业,采购了我们的大数据服务,正在给他做平台的搭建和调试。然后这几天他这个CEO在调试路由器的时候遇到一些问题,在搞大数据的同时捎带手解决了一下他这个问题。 OpenWRT,嵌入式Linux,主要用在MIPS或ARM设备上。路由器和wifi设备很多会采用这个系统,特点是轻巧。 Coova-Chilli,在[...]

Hadoop的word co-occurrence实现

Word Co-occurrence一直不知道该怎么正确翻译, 单词相似度?还是共生单词?还是单词的共生矩阵? 这在统计里面是很常用的文本处理算法,用来度量一组文档集中所有出现频率最接近的词组.嗯,其实是上下文词组,不是单词.算是一个比较常用的算法,可以衍生出其他的统计算法.能用来做推荐,因为它能够提供的结果是”人们看了这个,也会看那个”.比如做一些协同过滤之外的购物商品的[...]

Hadoop2的ResourceManager高可用配置

Hadoop 2.2没怎么关注过,太新,bug太多。2.4出来以后关注了一些东西,比如2.4里面直接带了ResourceManager的高可用,这点比较吸引人。之前2.2没注意有没有,貌似是没有,然后CDH自己出了一个解决方案,这次2.4的更新直接自己带了,还不错,这样就全了,Namenode有HA和Federation,RM也有了HA,而且也可以通过ZKFC自动做故障切换。大概从2.4开始,Ha[...]

Hadoop运维记录系列(十三)

记录一下在2.x里面不会很常见的报错。只是在测试集群中发生,生产集群大概很少有人会去重启Namenode吧,特别是做了HA的。 场景是在2.x里做好了Namenode HA,以Namespace URI方式访问HDFS时,报错,然后两个Namenode貌似都是standby,然后历史任务服务器无法启动,HBase的Master也无法启动。其实这个故障很简单。 (更多…) [...]

给刚玩Hadoop的朋友一些建议

随着两会中间央视新闻天天说大数据,很多人纷纷开始关注大数据和Hadoop以及数据挖掘和数据可视化了,我现在创业,遇到很多传统数据行业往Hadoop上面去转型的公司和个人,提了很多问题,大多数问题还都是差不多的。所以我想整理一些,也可能是很多人都关注的问题。 关于Hadoop版本的选择? (更多…) [...]

写几个Hadoop部署用到的小脚本

最近抛弃非ssh连接的hadoop集群部署方式了,还是回到了用ssh key 验证的方式上了。这里面就有些麻烦,每台机器都要上传公钥。恰恰我又是个很懒的人,所以写几个小脚本完成,只要在一台机器上面就可以做公钥的分发了。 (更多…) [...]

搭建红外遥控arm-hadoop集群过程

很多人玩开发板用树莓派,树莓派的确很好,但是对于hadoop来说,内存有点小,只有512MB。所以我找了一圈,最后用的是国内一个开源硬件团队的产品叫CubieTruck。内存有2G,板载存储有8G,千兆网口,可以挂载2.5寸机械或SSD硬盘。 (更多…) [...]

Page 4 of 5
1 2 3 4 5