第一章:機器學習領域

甚麼是機器學習?

機器學習可以讓機器基於過去的經驗學到東西，而大量的資料透過演算法可以找到跡象(patterns)跟洞見(insights)，以此來做出預測或是決定。

機器學習系統甚麼分類?

以人類是否監督: 分為監督、非監督、半監督跟強化式學習

是否在運作過程不斷學習: 線上以及批次學習

監督式學習是甚麼，有甚麼演算法?

監督式學習通常透過輸入值來去預測一個值，因此資料需要有特定的標籤或是數值的答案讓機器去預測，常見的有KNN(K Nearest Neighbors)、Linear Regression(線性回歸)、Logistic Regression、SVM(支援向量機)、決策樹/隨機森林(Random Forest)

非監督式學習是甚麼，有甚麼演算法?

非監督式學習不預先給model 最終的標籤，嘗試在沒有教導的條件下學習，主要可以分成

分群法，例如K-means、DBSCAN、階層式分群分析(HCA)，觀察那些點的距離相近

異常檢測，如one-class SVM、孤立森林(Isolation Forest)，找出大眾值後，把異常值找出來

視覺化與降維，PCA，再多維分析時，找出潛在更有效的新參數並且降低原有參數數量

關聯規則學習，如先驗、Eclat，發現不同資料點之間的屬性關聯

半監督學習是甚麼，有甚麼演算法?

半監督學習因為如果全面性幫資料加上標籤會很浪費時間跟成本，在大量的無標籤資料中，透過少部分有標籤的資料去訓練模型，例如深度信念網路(DBN，Deep belief networks)，可以接受部分有跟無標籤的資料

強化式學習是甚麼，有甚麼範例?

強化式學習通常是透過代理人(agent)，觀察環境並做出選擇與行動，最後獲得獎勵或懲罰，讓代理人學習甚麼條件下才是最佳策略。應用如DeepMind 的AlphaGo

批次與線上學習有甚麼差異?

批次學習會一次性地先學習完後，就不再變動它的核心，不會再去認識新資料，可以節省資源、保持訓練後演算法的一致

線上學習則是一小批次一小批次逐步讓演算法訓練，優點是他會依據新資料學到新資訊，適合像頻繁變動的股價

機器學習的主要挑戰有甚麼?

主要有兩部分，不良演算法跟不良資料

不良資料有可能是訓練資料不足、訓練的資料不具有代表性、資料充滿雜訊、無關的特徵(需透過feature engineering去提取特徵)、over-fitting讓模型過度配合訓練資料導致對新資料的判斷很差、under-fitting讓模型不足以代表這些資料導致在各資料表現都不好

第一章:機器學習領域

Comments

Leave a Comment