`
BlackWing
  • 浏览: 196453 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论
文章列表
转载请标明出处:http://blackwing.iteye.com/blog/2231556 根据项亮《动态推荐系统关键技术研究》的分类方式,可以根据使用数据来把推荐技术分成以下两类: 1.按使用数据分类: 协同过滤 内容过滤 社会化过滤 基于人口信息的过滤 机遇地理信息的推荐 2.按模型分类: 领域模型 矩阵分解模型 图模型 受限于数据获得的难易程度,一般用户行为数据较为容易获取,所以也导致协同过滤相关推荐算法的流行。 项亮表示,凡是使用了用户行为数据进行运算的都可以归类为协同过滤算法,经典的有user-based协同过滤和item-based协同过滤。 亚马逊把item-b ...
转载请标明出处:http://blackwing.iteye.com/blog/2191454 网上虽然有不少关于MultipleOutputs实现多文件输出的文章,但发现要不还是使用mapred.lib旧接口,要不就是说明不清楚。 Mapper package com.yy.hiido.itemcf.hadoop.mapper; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.ha ...
转载请标明出处:http://blackwing.iteye.com/admin/blogs/2188077 数据量大的情况下,通过直接读取HFile来获得hbase表数据性能比通过HTable读取有优势,但当读取HFile时,table同时有数据写入,那么可能因为split、compact等原因导致某些HFile不存在,导致任务失败。 如果通过hdfs的snapshot快照功能,对某个table进行快照后,在读取快照,则不会出现问题。步骤如下: 1. 把需要快照的表设置为snapshottable hdfs dfsadmin -allowSnapshot <path> 对应的 ...
转载请标明出处:http://blackwing.iteye.com/blog/2158799 由于sentinel redis集群是搭建在组内的服务器,而某个应用需要从其他组的storm集群访问sentinel,并且组内的sentinel配置了防火墙访问规则。 sentinel对外开通的是26379端口,所以程序连接sentinel是,能正常建立对sentinel master的连接,但当需要活动pool资源时: sentinelPool.getResource(); 则报一下错误: Could not get a resource from the pool 原来除了需要防火墙开发se ...
转载请声明出处:http://blackwing.iteye.com/blog/2152319 试用了fluentd,挺方便易用,支持直接到hdfs,hbase,mangoDB等,可以跟已有业务结合。 安装fluentd非常简单,官方教材地址:http://docs.fluentd.org/categories/installation 以下是针对ubuntu 12.04 LTS进行说明: 1.先修改系统环境,例如增加open files数目、修改网络参数等:http://docs.fluentd.org/articles/before-install 2.根据自己系统版本,直接执行官方写 ...

那些storm的坑坑

转载请声明出处:http://blackwing.iteye.com/blog/2147633 在使用storm的过程中,感觉它还是不如hadoop那么成熟。当然,它的流式处理能力挺让人眼前一亮,以前做的个性化推荐都是离线计算,现在总算把实时部分也加上了。 总结一下storm使用的些心得: 1.尽量把大量数据处理行为分拆成多个处理component。 2.storm不擅长保存状态,一般需要借助如redis这些外部存储比较方便实现逻辑。 3.其实跟1有点类似,不用在component(例如spout或者bolt)中保存大量数据,因为很容易撑爆内存,导致worker被kill掉。 下面是我遇到 ...
转载请标明出处:http://blackwing.iteye.com/blog/2107107 环境为hadoop2.2,在linux下运行自己的job,报如下错误: Exception from container-launch: ExitCodeException exitCode=1: ExitCodeException exitCode=1: at org.apache.hadoop.util.Shell.runCommand(Shell.java:538) at org.apache.hadoop.util.Shell.run(Shell. ...
转载请标明出处:http://blackwing.iteye.com/blog/2001416 主要参考这篇文章:https://www.digitalocean.com/community/articles/how-to-install-zabbix-on-ubuntu-configure-it-to-monitor-multiple-vps-servers 其实不用升级source也能够apt-get install,但是安装的版本是1.8,升级后安装的版本是2.0. 需求:监控自己的java程序状态,例如程序运行后,返回0是正常结束,1是出错。 zabbix除了主动从客户端拉数据外, ...
转载请标明出处:http://blackwing.iteye.com/admin/blogs/1995026 Storm已经在2013年9月放到apache,作为孵化项目,但他的apache主页居然404,真莫名。 Storm的资料如下: 1.安装集群教程 https://github.com/nathanmarz/storm/wiki/Setting-up-a-Storm-cluster 2.官方的另一个主页 http://storm-project.net/ 主要步骤为: 1. 按照zookeeper集群 2. 安装依赖软件 其中主要是安装ZeroMQ和jzmq,官方 ...
转载请标明出处:http://blackwing.iteye.com/blog/1991901 之前在另一篇文章里实现的自定义job生成HFile并使用LoadIncrementalHFiles  入库HBase :http://blackwing.iteye.com/blog/1991380 但发现入库时,非常的慢,而且几次都失败了,明明官方教材说这个操作是move的: The completebulkload utility will move generated StoreFiles into an HBase table. This utility is often used in ...
转载请标明出处:http://blackwing.iteye.com/blog/1991380 hbase自带了ImportTsv类,可以直接把tsv格式(官方教材显示,是\t分割各个字段的文本格式)生成HFile,并且使用另外一个类org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles直接把HFile移动到hbase对应的hdfs目录。 PS:网上看到一个XD说,直接生成HFile并入库HBase效率不如先生成HFile,再通过LoadIncrementalHFiles移动文件到hbase目录高,这点没有验证,我的做法也是先生成,再 ...
转载请标明出处:http://blackwing.iteye.com/blog/1985226 网上其他的解释是,MR的in/out的key、value类型不匹配,或者job的输入输出格式不匹配导致报如下错误: java.lang.NullPointerException at org.apache.hadoop.io.serializer.SerializationFactory.getSerializer(SerializationFactory.java:73) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.<ini ...
转载请标明出处:http://blackwing.iteye.com/blog/1981812 ivy服务器的一般应用场景是,再内网某台服务器上搭建一个共享的repository,本地连接检出需要的jar包。 1. ubuntu上安装samba sudo apt-get install samba 2. 创建目录 在自己需要的路径下创建一个共享目录,例如: /usr/local/cluster/public 跟着修改samba的配置文件(apt-get安装后,默认在/etc/samba/smb.conf) 在文件最后添加: [share] path=/usr/local/clust ...
转载请标明出处:http://blackwing.iteye.com/blog/1980219 服务器上hbase用的是hadoop 2.2.0的hdfs,java程序访问hbase时报如下错误: java.lang.NoClassDefFoundError: org/apache/hadoop/util/PlatformName Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.util.PlatformName 网上说的修改hadoop-config.sh这种方式应该是旧版本hadoop的解决办法 ...
转载请标明出处:http://blackwing.iteye.com/blog/1978501 org.apache.hadoop.io.Text里面的getBytes方法有个小坑。 先看现场: String s = "91223224-20131120-96413376-150"; Text t = new Text(); t.set(s); Put put = new Put(t.getBytes());//*1 put.add("kq".getBytes(), "0".getBytes(),&quo ...
Global site tag (gtag.js) - Google Analytics