Hive Join Posted on 2017-09-24 | In Big data Hive JoinHive中的Join的用法創建join示例所使用的表。1234567891011121314151617181920212223242526272829303132333435363738394041424344-- 創建table a hive> create table a( id int, name string )row format delimited fields terminated by '\t';OK-- 從本地文件載入資料hive> load data local inpath '/home/hadoop/data/a_join.txt' into table a;Loading data to table default.aTable default.a stats: [numFiles=1, totalSize=26]OKTime taken: 0.293 secondshive> select * from a;OK1 zhangsa2 lisi3 wangwuTime taken: 0.055 seconds, Fetched: 3 row(s)-- 創建table bhive> create table b( id int, age int ) row format delimited fields terminated by '\t';OK-- 從本地文件載入資料hive> load data local inpath '/home/hadoop/data/b_join.txt' into table b;Loading data to table default.bTable default.b stats: [numFiles=1, totalSize=15]OKTime taken: 0.241 secondshive> select * from b;OK1 282 194 21Time taken: 0.089 seconds, Fetched: 3 row(s) Read more »
Hive DML Posted on 2017-09-18 | In Big data Hive Data Manipulation Language Hive DML 官方文檔 Loading files into tablesSyntax1LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] LOCAL: 是否從本地文件中載入資料,否則從HDFS中載入。 ‘filepath’: 可以為本地文件路徑,或HDFS路徑。 OVERWRITE: 是否重寫資料,否則在尾端追加數據。 Read more »
Hive Basics Posted on 2017-09-13 | In Big data Hive BasicsIntroduction 提供一套SQL語句,稱為Hive QL,作用於分布式存儲系統的文件之上。 為儲存於分布式存儲系統上的結構化數據文件加上schema的概念,映射為一張數據表,便於應用SQL語句進行操作。 將Client提交的SQL語句,解析並轉換成對應的作業。最終通過計算框架完成操作後,將計算結果返回給Client。 提供命令行工具與JDBC驅動,用於連接Client與Hive。 底層支持MapReduce(Hive on MapReduce)、Spark(Hive on Spark)、Tez(Hive on Tez) MapReduce雖然性能慢,但是相對於Spark較為穩定,所以大部分生產環境還是跑Hive on MapReduce 支持多種文件壓縮與存儲格式。 Read more »
Install MySQL from Source Code Posted on 2017-09-10 | In Big data Install MySQL from Source Code安裝步驟基本訊息 OS: CentOS 6.5 64bit MySQL: 5.6.23 MySQL下載位置 設置MySQL目錄12345678910[root@hadoop-01 ~]# cd /usr/local[root@hadoop-01 local]# ls | grep mysqlmysql-5.6.23-linux-glibc2.5-x86_64.tar.gz[root@hadoop-01 local]# tar -zxvf mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz[root@hadoop-01 local]# mv mysql-5.6.23-linux-glibc2.5-x86_64 mysql[root@hadoop-01 local]# vi /etc/profile## 新增下列兩行在文件中的任一位置,設置MySQL環境變量export MYSQL_HOME=/usr/local/mysqlexport PATH="$MYSQL_HOME/bin:$PATH"[root@hadoop-01 local]# source /etc/profile Read more »
Compile Spark Source Code Posted on 2017-09-09 | In Big data Compile Spark Source CodeWhy Spark 編譯步驟基本訊息 OS: CentOS 6.5 64bit/macOS Sierra JDK: 8u144 Maven: 3.3.9(Spark source code自帶) Apache Spark下載位置 Read more »
YARN Basics Posted on 2017-08-30 | In Big data YARNIntroduction Apache Hadoop YARN官網 分布式資源調度框架,用以提高分布式集群環境下的資源利用率。 將資源管理功能(ResourceManager)與作業調度和監控(ApplicationMaster)分別使用不同的Daemon進行。 集群資源統一管理,支援大部份大數據處理框架,例如MapReduce、Spark、Storm等,降低運維成本。 Read more »
HDFS Read Write Procedure Posted on 2017-08-28 | In Big data HDFS Read Write Procedure文件寫入流程 Read more »
HDFS Basics Posted on 2017-08-27 | In Big data HDFS(Hadoop Distributed File System)Introduction Apache HDFS官網 可運行在普通且廉價的硬體上 高容錯能力 提供應用程式對數據的高吞吐量(high throughput)訪問,適用於具有大數據集的應用程式 Read more »
Compile Hadoop Source Code Posted on 2017-08-23 | In Big data Compile Hadoop Source Code編譯步驟基本訊息 OS: CentOS 6.5 64bit Hadoop: 2.8.1 JDK: 8u144 Maven: 3.3.9 ProtocolBuffer: 2.5.0 Findbugs: 1.3.9 設置Hadoop目錄 Hadoop source code: Hadoop官網下載 Read more »
Hadoop Pseudo-Distributed Setup Posted on 2017-08-23 | In Big data Hadoop Pseudo-Distributed Setup偽分布式模式(Pseudo-Distributed Mode) 在單個集群上運行Hadoop 所有的Hadoop daemon皆運行在不同的Java process 在單機模式上增加了程式調適功能,並允許檢查以下狀態: 記憶體使用情況 HDFS的輸出/輸入 與其他daemon的交互情況,如namenode,datanode,secondarynamenode,jobtracer,tasktrace Read more »