Spark SQL DataFrame Operations
Code
|
|
Explanation
來源檔案內容
|
|
對應輸出
- df.show()
- 顯示當前DataFrame內的紀錄
- 根據DataFrame源碼顯示,show()只會顯示前20條紀錄
|
|
- df.printSchema()
- 透過樹狀結構將DataFrame中的schema列印出來
- DataFrame會自行對json格式內的紀錄進行類型推導,譬如age的類型為long
- df.select(“name”).show()
- 顯示特定column name的紀錄
- 指定的column name入參為String類型
- API source: select(col: String, cols: String*): DataFrame
|
|
- import spark.implicits._
- 引用隱式轉換,確保column類型可以正常使用
- df.select($”name”, $”age” + 1).show()
- 入參為column類型
- API source: select(cols: Column*): DataFrame
- df.filter($”age” > 21).show()
- 透過columnt輸入過濾條件
|
|