Slaytanic – 第 4 页 – In Code We Trust

Tornado学习笔记(一)

最近开始用Tornado做开发了，究其原因，主要是Tornado基于Python，一来代码量少开发速度快，二来采用epoll方式，能够承载的并发量很高。在我的i5台式机上用ab测试，不连接数据库的情况下，单用get生成页面，大概平均的并发量在7900左右。这比php或者java能够承载并发量都高很多很多。三来Python代码可维护性相对来说比php好很多，语法结构清晰。四来，tornado的框架设[...]

Hadoop运维记录系列(十四)

周末去了趟外地，受托给某省移动公司(经确认更正，是中国移动位置基地，不是省公司)做了一下Hadoop集群故障分析和性能调优，把一些问题点记录下来。该系统用于运营商的信令数据，大约每天1T多数据量，20台Hadoop服务器，赞叹一下运营商乃真土豪，256G内存，32核CPU，却挂了6块2T硬盘。还有10台左右的服务器是64G内存，32核CPU，4~6块硬盘，据用户反馈，跑数据很慢，而且会有失败，重[...]

解决Ubuntu更新nVidia显卡驱动后黑屏问题

跟大数据没关系，自己使用的一个记录。现在已经完全抛弃windows了，完全用ubuntu来干活了。不是windows不好，是中国的windows生态环境太差了，随便装个国产小软件会附带给用户装一堆垃圾的东西，什么各种毒霸，各种手机助手，各种输入法，稍微点错个什么按钮就装一堆的垃圾，到处都是陷阱，就连开源的SourceForge推出的FileZilla安装器，后台还偷偷自动下载Norton 360[...]

OpenWRT嵌入式Linux故障排除一例

跟大数据没关系，只是帮朋友忙排了个错记录一下。以前关系很不错的同事，目前在企业级wifi领域创业，采购了我们的大数据服务，正在给他做平台的搭建和调试。然后这几天他这个CEO在调试路由器的时候遇到一些问题，在搞大数据的同时捎带手解决了一下他这个问题。 OpenWRT，嵌入式Linux，主要用在MIPS或ARM设备上。路由器和wifi设备很多会采用这个系统，特点是轻巧。 Coova-Chilli，在[...]

Hadoop的word co-occurrence实现

Word Co-occurrence一直不知道该怎么正确翻译, 单词相似度?还是共生单词?还是单词的共生矩阵? 这在统计里面是很常用的文本处理算法,用来度量一组文档集中所有出现频率最接近的词组.嗯,其实是上下文词组,不是单词.算是一个比较常用的算法,可以衍生出其他的统计算法.能用来做推荐,因为它能够提供的结果是”人们看了这个,也会看那个”.比如做一些协同过滤之外的购物商品的[...]

Hadoop2的ResourceManager高可用配置

Hadoop 2.2没怎么关注过，太新，bug太多。2.4出来以后关注了一些东西，比如2.4里面直接带了ResourceManager的高可用，这点比较吸引人。之前2.2没注意有没有，貌似是没有，然后CDH自己出了一个解决方案，这次2.4的更新直接自己带了，还不错，这样就全了，Namenode有HA和Federation，RM也有了HA，而且也可以通过ZKFC自动做故障切换。大概从2.4开始，Ha[...]

Hadoop运维记录系列(十三)

记录一下在2.x里面不会很常见的报错。只是在测试集群中发生，生产集群大概很少有人会去重启Namenode吧，特别是做了HA的。场景是在2.x里做好了Namenode HA，以Namespace URI方式访问HDFS时，报错，然后两个Namenode貌似都是standby，然后历史任务服务器无法启动，HBase的Master也无法启动。其实这个故障很简单。（更多…） [...]

阿姆憨杜普(ARM Hadoop)集群荣获硬蛋大赛奖项

基于arm架构硬件的Hadoop HBase集群参加了首届科通芯城的硬蛋i未来硬件创新大赛，进入决赛，最后拿到了十佳项目。有奖杯为证。（更多…）

给刚玩Hadoop的朋友一些建议

随着两会中间央视新闻天天说大数据，很多人纷纷开始关注大数据和Hadoop以及数据挖掘和数据可视化了，我现在创业，遇到很多传统数据行业往Hadoop上面去转型的公司和个人，提了很多问题，大多数问题还都是差不多的。所以我想整理一些，也可能是很多人都关注的问题。关于Hadoop版本的选择？（更多…） [...]

写几个Hadoop部署用到的小脚本

最近抛弃非ssh连接的hadoop集群部署方式了，还是回到了用ssh key 验证的方式上了。这里面就有些麻烦，每台机器都要上传公钥。恰恰我又是个很懒的人，所以写几个小脚本完成，只要在一台机器上面就可以做公钥的分发了。（更多…） [...]