第一章:機器學習領域
第一章:機器學習領域
甚麼是機器學習?
機器學習可以讓機器基於過去的經驗學到東西,而大量的資料透過演算法可以找到跡象(patterns)跟洞見(insights),以此來做出預測或是決定。
機器學習系統甚麼分類?
以人類是否監督: 分為監督、非監督、半監督跟強化式學習
是否在運作過程不斷學習: 線上 以及批次學習
監督式學習是甚麼,有甚麼演算法?
監督式學習通常透過輸入值來去預測一個值,因此資料需要有特定的標籤或是數值的答案讓機器去預測,常見的有KNN(K Nearest Neighbors)、Linear Regression(線性回歸)、Logistic Regression、SVM(支援向量機)、決策樹/隨機森林(Random Forest)
非監督式學習是甚麼,有甚麼演算法?
非監督式學習不預先給model 最終的標籤,嘗試在沒有教導的條件下學習,主要可以分成
分群法,例如K-means、DBSCAN、階層式分群分析(HCA),觀察那些點的距離相近
異常檢測,如one-class SVM、孤立森林(Isolation Forest),找出大眾值後,把異常值找出來
視覺化與降維,PCA,再多維分析時,找出潛在更有效的新參數並且降低原有參數數量
關聯規則學習,如先驗、Eclat,發現不同資料點之間的屬性關聯
半監督學習是甚麼,有甚麼演算法?
半監督學習因為如果全面性幫資料加上標籤會很浪費時間跟成本,在大量的無標籤資料中,透過少部分有標籤的資料去訓練模型,例如深度信念網路(DBN,Deep belief networks),可以接受部分有跟無標籤的資料
強化式學習是甚麼,有甚麼範例?
強化式學習通常是透過代理人(agent),觀察環境並做出選擇與行動,最後獲得獎勵或懲罰,讓代理人學習甚麼條件下才是最佳策略。應用如DeepMind 的AlphaGo
批次與線上學習有甚麼差異?
批次學習會一次性地先學習完後,就不再變動它的核心,不會再去認識新資料,可以節省資源、保持訓練後演算法的一致
線上學習則是一小批次一小批次逐步讓演算法訓練,優點是他會依據新資料學到新資訊,適合像頻繁變動的股價
機器學習的主要挑戰有甚麼?
主要有兩部分,不良演算法跟不良資料
不良資料有可能是訓練資料不足、訓練的資料不具有代表性、資料充滿雜訊、無關的特徵(需透過feature engineering去提取特徵)、over-fitting讓模型過度配合訓練資料導致對新資料的判斷很差、under-fitting讓模型不足以代表這些資料導致在各資料表現都不好
Comments
Loading comments…
Leave a Comment