N-gram Language Model
定義
為一種統計語言模型(Statistical Language Model),統計語言模型定義:
而N-gram又稱為N元模型,N-gram是指一段語句中包含N個Token,譬如abcde,則2-gram依次為:
ab, bc, cd, de
RF為Bagging的擴展變形。RF以決策樹為基學習器,並在決策樹訓練時,引入隨機屬性選擇。
建立每一顆決策樹皆包含行採樣、列採樣與完全分裂三個步驟:
行採樣: 目的是挑選進行訓練的數據。採用有放回的方式,及為採樣得到的樣本集中,可能會有重複的樣本。假設,輸入N個樣本,那麼採樣的樣本也為N個。在訓練時,每一顆樹輸入樣本都不是全部的樣本,使得相對不容易over-fitting。
列採樣: 目的是挑選進行訓練的特徵,從M個特徵中,挑m個(m << M)。
完全分裂: 使用完全分裂的方式對採樣後的數據建立決策樹,這樣決策樹的某一個葉子節點要麼是無法繼續分裂,不然就是裡面的樣本全屬一同一個分類。
與其他決策樹算法不同的是,這裡不進行剪枝,因為前兩個隨機採樣的過程保證了隨機性,就算不進行剪枝,也不會出現over-fitting