第一章:機器學習領域

第一章:機器學習領域

第一章:機器學習領域

甚麼是機器學習?

機器學習可以讓機器基於過去的經驗學到東西,而大量的資料透過演算法可以找到跡象(patterns)跟洞見(insights),以此來做出預測或是決定。

機器學習系統甚麼分類?

以人類是否監督: 分為監督、非監督、半監督跟強化式學習

是否在運作過程不斷學習: 線上 以及批次學習

監督式學習是甚麼,有甚麼演算法?

監督式學習通常透過輸入值來去預測一個值,因此資料需要有特定的標籤或是數值的答案讓機器去預測,常見的有KNN(K Nearest Neighbors)、Linear Regression(線性回歸)、Logistic Regression、SVM(支援向量機)、決策樹/隨機森林(Random Forest)

非監督式學習是甚麼,有甚麼演算法?

非監督式學習不預先給model 最終的標籤,嘗試在沒有教導的條件下學習,主要可以分成

分群法,例如K-means、DBSCAN、階層式分群分析(HCA),觀察那些點的距離相近

異常檢測,如one-class SVM、孤立森林(Isolation Forest),找出大眾值後,把異常值找出來

視覺化與降維,PCA,再多維分析時,找出潛在更有效的新參數並且降低原有參數數量

關聯規則學習,如先驗、Eclat,發現不同資料點之間的屬性關聯

半監督學習是甚麼,有甚麼演算法?

半監督學習因為如果全面性幫資料加上標籤會很浪費時間跟成本,在大量的無標籤資料中,透過少部分有標籤的資料去訓練模型,例如深度信念網路(DBN,Deep belief networks),可以接受部分有跟無標籤的資料

強化式學習是甚麼,有甚麼範例?

強化式學習通常是透過代理人(agent),觀察環境並做出選擇與行動,最後獲得獎勵或懲罰,讓代理人學習甚麼條件下才是最佳策略。應用如DeepMind 的AlphaGo

批次與線上學習有甚麼差異?

批次學習會一次性地先學習完後,就不再變動它的核心,不會再去認識新資料,可以節省資源、保持訓練後演算法的一致

線上學習則是一小批次一小批次逐步讓演算法訓練,優點是他會依據新資料學到新資訊,適合像頻繁變動的股價

機器學習的主要挑戰有甚麼?

主要有兩部分,不良演算法跟不良資料

不良資料有可能是訓練資料不足、訓練的資料不具有代表性、資料充滿雜訊、無關的特徵(需透過feature engineering去提取特徵)、over-fitting讓模型過度配合訓練資料導致對新資料的判斷很差、under-fitting讓模型不足以代表這些資料導致在各資料表現都不好

Comments

Loading comments…

Leave a Comment