`
文章列表
hadoop2.x 默认没有支持snappy压缩,需要我们自己编译 才能支持snappy的压缩。 查看hadoop2.x 的BUILDING文件 ,  Snappy build options:    Snappy is a compression library that can be utilized by the native code.    It is currently an optional component, meaning that Hadoop can be built with    or without this dependency.     * U ...
1.下载 wget -c http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.5.0-cdh5.3.3.tar.gz 2.解压 tar -zxvf flume-ng-1.5.0-cdh5.3.3.tar.gz -C /opt/modules/ 3.配置 cd /opt/modules/flume-ng-1.5.0-cdh5.3.3/conf mv flume-env.sh.template flume-env.sh vi flume-env.sh export JAVA_HOME=/opt/modules/jdk1.7.0 ...
1.linux环境准备 (1).设置静态IP (2).设置主机名 操作: hostname www.hyman.com vi /etc/sysconfig/network 验证: hostname (3).绑定主机名 操作: vi /etc/hosts 验证: ping www.hyman.com (4).关闭防火墙 操作: service iptables stop 验证: service iptables status (5).关闭防火墙自启动 操作: chkconfig iptables off 验证: chkconfig --list | ...

scala java 集合转换

1.java集合转scala    方法一:自动隐式转换 import scala.collection.JavaConversions._    方法二: Wrappers.JListWrapper.apply(javaList) 2.scala集合转Java      自动隐式转换 import scala.collection.JavaConversions._          

shell 读取msyql

#!/bin/bash HOST_IP='hyman' USER='root' PASSWD='123456' DBNAME='zhenai_etl' sql="SELECT t.data_id,t.databaseType,t.keep_day,s.host_ip,s.host_port,s.user_name,s.user_pwd FROM t_src_interface_config t,t_server s WHERE t.server_tag = s.server_tag AND t.syn_to_db = 1;" echo $sql ...
解决eclipse 创建项目默认JRE 是1.5的问题 修改settings.xml <profile> <id>jdk-1.7</id> <activation> <activeByDefault>true</activeByDefault> <jdk>1.7</jdk> </activation> <properties> <maven.compiler.source>1.7</maven.compiler.so ...

导出maven 依赖jar

输入以下命令:mvn dependency:copy-dependencies -DoutputDirectory=lib 更简单的 mvn dependency:copy-dependencies 会导出到targetdependency 下面   mvn clean dependency:copy-dependencies package 复制依赖的jar 非常有用   mvn dependency:copy-dependencies -DoutputDirectory=C:/lib -DincludeScope=compile 这个试过了可以。 这样j ...
  用Mysql终端进入Mysql数据库一看乱码了    第一感觉就是latin1字符。 执行sq脚本查看Mysql字符集相关属性: SHOW VARIABLES LIKE 'character_set_%';   果然是latin1字符集 首先想到的就是把latin1改成utf8 执行命令: set names utf8; SHOW VARIABLES LIKE 'character_set_%';   似乎问题已经解决,再次查询一看   fuck 傻眼了,有种想死的感觉,真想骂人,麻痹的安装mysql 的人脑残 不选utf8作为默认字符集. 别捉急 看下终端   ...
  //创建用户 create user 'hive'@'%' identified by 'hive';   //授权 grant all privileges on *.* to 'hive'@'%' with grant option; flush privileges;
  hadoop distcp 备份HDFS文件,并行复制大量数据。   1.同版本集群之间复制 :   hadoop distcp hdfs://namenode1/src hdfs://namenode2/dist   这将从第一个集群中复制/src目录下的内容复制到第二个集群中的/dist目录下   默认情况下,distcp会跳过目标路径已经有的文件,但可以通过提供的-overwrite选项进行覆盖,也可以用-update选项来选择只更新那些修改过的文件。   第一个集群的子树/src下的一个文件与第二个集群的改变进行同步。 hadoop distcp -upda ...
MapReduce生成HFile文件、加载HFile到HBase   1、程序代码 public class TransformHFile extends Configured implements Tool{ public static final String COLUMN_FAMILY = "info"; public static final String[] COLUMNS = new String[]{"rowkey","name","deptname","leader ...
MapReuce导入数据文件到HBASE表中1. 代码编写   /** * 参考 org.apache.hadoop.hbase.mapreduce.ImportTsv * org.apache.hadoop.hbase.mapreduce.TsvImporterMapper * @author Hyman */ public class ImportEmp extends Configured implements Tool{ public static final String COLUMN_FAMILY = "info"; pub ...
生成HFile文件   HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp`:${HBASE_HOME}/conf \ ${HBASE_HOME}/bin/hbase org.apache.hadoop.hbase.mapreduce.ImportTsv \ -Dimporttsv.columns=HBASE_ROW_KEY,\ info:name,info:deptname,info:leader,info:joindate,info:sal,info:exp,info:deptno \ -Dimporttsv.bulk.o ...
hadoop版本是CDH5.3.3的,安装了伪分布模式,一直以来程序运行好好的,突然间运行mapreduce程序卡在running job上 ,mapreduce已经提交到yarn上去了  一直卡着没动 ,纠结了N天,总算搞定了, 之前还以为是我的内存不够 ,我把内存设置成6G了 ,没跑别的应用 ,查看内存使用情况   [ehp@hadoop-ehp hadoop-2.5.0-cdh5.3.3]$ free -m total used free shared buffers cached Mem: ...

Hive UDF编程

    博客分类:
  • Hive
编写一个类 继承 org.apache.hadoop.hive.ql.exec.UDF 在该类中加入 evaluate 方法 "evaluate" should never be a void method. However it can return "null" if * needed.     public class UDFLastDay extends UDF{ private final SimpleDateFormat inputFormatter = new SimpleDateFormat("yyyy- ...
Global site tag (gtag.js) - Google Analytics