0x90e's Blog

Chase Excellence,
Sucess will follow.


  • Home

  • Tags

  • Categories

  • Archives

Hive Join

Posted on 2017-09-24 | In Big data

Hive Join

Hive中的Join的用法

創建join示例所使用的表。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
-- 創建table a
hive> create table a(
id int,
name string
)row format delimited fields terminated by '\t';
OK
-- 從本地文件載入資料
hive> load data local inpath '/home/hadoop/data/a_join.txt' into table a;
Loading data to table default.a
Table default.a stats: [numFiles=1, totalSize=26]
OK
Time taken: 0.293 seconds
hive> select * from a;
OK
1 zhangsa
2 lisi
3 wangwu
Time taken: 0.055 seconds, Fetched: 3 row(s)
-- 創建table b
hive> create table b(
id int,
age int
) row format delimited fields terminated by '\t';
OK
-- 從本地文件載入資料
hive> load data local inpath '/home/hadoop/data/b_join.txt' into table b;
Loading data to table default.b
Table default.b stats: [numFiles=1, totalSize=15]
OK
Time taken: 0.241 seconds
hive> select * from b;
OK
1 28
2 19
4 21
Time taken: 0.089 seconds, Fetched: 3 row(s)
Read more »

Hive DML

Posted on 2017-09-18 | In Big data

Hive Data Manipulation Language

  • Hive DML 官方文檔

Loading files into tables

Syntax

1
LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

  • LOCAL: 是否從本地文件中載入資料,否則從HDFS中載入。
  • ‘filepath’: 可以為本地文件路徑,或HDFS路徑。
  • OVERWRITE: 是否重寫資料,否則在尾端追加數據。
    Read more »

Hive Basics

Posted on 2017-09-13 | In Big data

Hive Basics

Introduction

  • 提供一套SQL語句,稱為Hive QL,作用於分布式存儲系統的文件之上。
  • 為儲存於分布式存儲系統上的結構化數據文件加上schema的概念,映射為一張數據表,便於應用SQL語句進行操作。
  • 將Client提交的SQL語句,解析並轉換成對應的作業。最終通過計算框架完成操作後,將計算結果返回給Client。
  • 提供命令行工具與JDBC驅動,用於連接Client與Hive。
  • 底層支持MapReduce(Hive on MapReduce)、Spark(Hive on Spark)、Tez(Hive on Tez)
    • MapReduce雖然性能慢,但是相對於Spark較為穩定,所以大部分生產環境還是跑Hive on MapReduce
  • 支持多種文件壓縮與存儲格式。
    Read more »

Install MySQL from Source Code

Posted on 2017-09-10 | In Big data

Install MySQL from Source Code

安裝步驟

基本訊息

  • OS: CentOS 6.5 64bit
  • MySQL: 5.6.23
    • MySQL下載位置

設置MySQL目錄

1
2
3
4
5
6
7
8
9
10
[root@hadoop-01 ~]# cd /usr/local
[root@hadoop-01 local]# ls | grep mysql
mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz
[root@hadoop-01 local]# tar -zxvf mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz
[root@hadoop-01 local]# mv mysql-5.6.23-linux-glibc2.5-x86_64 mysql
[root@hadoop-01 local]# vi /etc/profile
## 新增下列兩行在文件中的任一位置,設置MySQL環境變量
export MYSQL_HOME=/usr/local/mysql
export PATH="$MYSQL_HOME/bin:$PATH"
[root@hadoop-01 local]# source /etc/profile
Read more »

Compile Spark Source Code

Posted on 2017-09-09 | In Big data

Compile Spark Source Code

Why Spark

編譯步驟

基本訊息

  • OS: CentOS 6.5 64bit/macOS Sierra
  • JDK: 8u144
  • Maven: 3.3.9(Spark source code自帶)
  • Apache Spark下載位置
    Read more »

YARN Basics

Posted on 2017-08-30 | In Big data

YARN

Introduction

  • Apache Hadoop YARN官網
  • 分布式資源調度框架,用以提高分布式集群環境下的資源利用率。
  • 將資源管理功能(ResourceManager)與作業調度和監控(ApplicationMaster)分別使用不同的Daemon進行。
  • 集群資源統一管理,支援大部份大數據處理框架,例如MapReduce、Spark、Storm等,降低運維成本。
    Read more »

HDFS Read Write Procedure

Posted on 2017-08-28 | In Big data

HDFS Read Write Procedure

文件寫入流程

Read more »

HDFS Basics

Posted on 2017-08-27 | In Big data

HDFS(Hadoop Distributed File System)

Introduction

  • Apache HDFS官網
  • 可運行在普通且廉價的硬體上
  • 高容錯能力
  • 提供應用程式對數據的高吞吐量(high throughput)訪問,適用於具有大數據集的應用程式
    Read more »

Compile Hadoop Source Code

Posted on 2017-08-23 | In Big data

Compile Hadoop Source Code

編譯步驟

基本訊息

  • OS: CentOS 6.5 64bit
  • Hadoop: 2.8.1
  • JDK: 8u144
  • Maven: 3.3.9
  • ProtocolBuffer: 2.5.0
  • Findbugs: 1.3.9

設置Hadoop目錄

  • Hadoop source code:
    • Hadoop官網下載
      Read more »

Hadoop Pseudo-Distributed Setup

Posted on 2017-08-23 | In Big data

Hadoop Pseudo-Distributed Setup

偽分布式模式(Pseudo-Distributed Mode)

  • 在單個集群上運行Hadoop
  • 所有的Hadoop daemon皆運行在不同的Java process
  • 在單機模式上增加了程式調適功能,並允許檢查以下狀態:
    • 記憶體使用情況
    • HDFS的輸出/輸入
    • 與其他daemon的交互情況,如namenode,datanode,secondarynamenode,jobtracer,tasktrace
Read more »
1…567
0x90e

0x90e

64 posts
8 categories
25 tags
E-Mail GitHub
© 2016 — 2020 0x90e
Powered by Hexo
|
Theme — NexT.Pisces v5.1.3
Unique Visitor Page View