0x90e's Blog

Hive Join

Posted on 2017-09-24 | In Big data

Hive Join

Hive中的Join的用法

創建join示例所使用的表。

-- 創建table a 
hive> create table a(
    id int,
    name string
    )row format delimited fields terminated by '\t';
OK
-- 從本地文件載入資料
hive> load data local inpath '/home/hadoop/data/a_join.txt' into table a;
Loading data to table default.a
Table default.a stats: [numFiles=1, totalSize=26]
OK
Time taken: 0.293 seconds
hive> select * from a;
OK
1	zhangsa
2	lisi
3	wangwu
Time taken: 0.055 seconds, Fetched: 3 row(s)
-- 創建table b
hive> create table b(
    id int,
    age int
    ) row format delimited fields terminated by '\t';
OK
-- 從本地文件載入資料
hive> load data local inpath '/home/hadoop/data/b_join.txt' into table b;
Loading data to table default.b
Table default.b stats: [numFiles=1, totalSize=15]
OK
Time taken: 0.241 seconds
hive> select * from b;
OK
1	28
2	19
4	21
Time taken: 0.089 seconds, Fetched: 3 row(s)

Hive DML

Posted on 2017-09-18 | In Big data

Hive Data Manipulation Language

Hive DML 官方文檔

Loading files into tables

Syntax

1	LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

LOCAL: 是否從本地文件中載入資料，否則從HDFS中載入。
‘filepath’: 可以為本地文件路徑，或HDFS路徑。
OVERWRITE: 是否重寫資料，否則在尾端追加數據。
Read more »

Hive Basics

Posted on 2017-09-13 | In Big data

Hive Basics

Introduction

提供一套SQL語句，稱為Hive QL，作用於分布式存儲系統的文件之上。
為儲存於分布式存儲系統上的結構化數據文件加上schema的概念，映射為一張數據表，便於應用SQL語句進行操作。
將Client提交的SQL語句，解析並轉換成對應的作業。最終通過計算框架完成操作後，將計算結果返回給Client。
提供命令行工具與JDBC驅動，用於連接Client與Hive。
底層支持MapReduce(Hive on MapReduce)、Spark(Hive on Spark)、Tez(Hive on Tez)
- MapReduce雖然性能慢，但是相對於Spark較為穩定，所以大部分生產環境還是跑Hive on MapReduce
支持多種文件壓縮與存儲格式。
Read more »

Install MySQL from Source Code

Posted on 2017-09-10 | In Big data

Install MySQL from Source Code

安裝步驟

基本訊息

OS: CentOS 6.5 64bit
MySQL: 5.6.23
- MySQL下載位置

設置MySQL目錄

[root@hadoop-01 ~]# cd /usr/local
[root@hadoop-01 local]# ls | grep mysql
mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz
[root@hadoop-01 local]# tar -zxvf mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz
[root@hadoop-01 local]# mv mysql-5.6.23-linux-glibc2.5-x86_64 mysql
[root@hadoop-01 local]# vi /etc/profile
## 新增下列兩行在文件中的任一位置，設置MySQL環境變量
export MYSQL_HOME=/usr/local/mysql
export PATH="$MYSQL_HOME/bin:$PATH"
[root@hadoop-01 local]# source /etc/profile

Compile Spark Source Code

Posted on 2017-09-09 | In Big data

Compile Spark Source Code

Why Spark

編譯步驟

基本訊息

OS: CentOS 6.5 64bit/macOS Sierra
JDK: 8u144
Maven: 3.3.9(Spark source code自帶)
Apache Spark下載位置
Read more »

YARN Basics

Posted on 2017-08-30 | In Big data

YARN

Introduction

Apache Hadoop YARN官網
分布式資源調度框架，用以提高分布式集群環境下的資源利用率。
將資源管理功能(ResourceManager)與作業調度和監控(ApplicationMaster)分別使用不同的Daemon進行。
集群資源統一管理，支援大部份大數據處理框架，例如MapReduce、Spark、Storm等，降低運維成本。
Read more »

HDFS Read Write Procedure

Posted on 2017-08-28 | In Big data

HDFS Read Write Procedure

文件寫入流程

HDFS Basics

Posted on 2017-08-27 | In Big data

HDFS(Hadoop Distributed File System)

Introduction

Apache HDFS官網
可運行在普通且廉價的硬體上
高容錯能力
提供應用程式對數據的高吞吐量(high throughput)訪問，適用於具有大數據集的應用程式
Read more »

Compile Hadoop Source Code

Posted on 2017-08-23 | In Big data

Compile Hadoop Source Code

編譯步驟

基本訊息

OS: CentOS 6.5 64bit
Hadoop: 2.8.1
JDK: 8u144
Maven: 3.3.9
ProtocolBuffer: 2.5.0
Findbugs: 1.3.9

設置Hadoop目錄

Hadoop source code:
- Hadoop官網下載
  Read more »

Hadoop Pseudo-Distributed Setup

Posted on 2017-08-23 | In Big data

Hadoop Pseudo-Distributed Setup

偽分布式模式(Pseudo-Distributed Mode)

在單個集群上運行Hadoop
所有的Hadoop daemon皆運行在不同的Java process
在單機模式上增加了程式調適功能，並允許檢查以下狀態:
- 記憶體使用情況
- HDFS的輸出/輸入
- 與其他daemon的交互情況，如namenode，datanode，secondarynamenode，jobtracer，tasktrace

Hive Join

Hive中的Join的用法

創建join示例所使用的表。

Hive Data Manipulation Language

Loading files into tables

Hive Basics

Introduction

Install MySQL from Source Code

安裝步驟

基本訊息

設置MySQL目錄

Compile Spark Source Code

Why Spark

編譯步驟

基本訊息

YARN

Introduction

HDFS Read Write Procedure

文件寫入流程

HDFS(Hadoop Distributed File System)

Introduction

Compile Hadoop Source Code

編譯步驟

基本訊息

設置Hadoop目錄

Hadoop Pseudo-Distributed Setup

偽分布式模式(Pseudo-Distributed Mode)

基本訊息

編譯步驟

基本訊息

基本訊息

設置Hadoop目錄