Kaggle 初學者筆記

Kaggle 初學者筆記

Kaggle 初學者筆記

參考為:https://github.com/upura/python-kaggle-start-book/blob/master/README_EN.md

書名是Kaggle 大師教您用Python

第一章節教如何註冊

2.4節: 特徵工程:例如把家庭人數轉化成是否單獨一人

還有當歲數有空值,可以找出平均值與標準差,去把空值給值,但這樣子做缺點是模型的本身可預測性會比較差,因為補的值每次可能都不一定,這時候可以用鎖定seed的方式補值

2.5節: 嘗試使用不同的ML model去train dataset

2.7 節: cross_validation的重要性: 為了避免對於train data over fitting,這時候可以透過把dataset 拆成更多包,更好的training

3.1節: 面對現實的data,把資料做merge也是資料工程的重要手法

3.2節,介紹圖像競賽,如何用圖像辨識識別

第四章開始是作者給想參加比賽的人的建議:

  • 認識你參加比賽的資料類型,例如tabular data(表格資料),image/影像,nlp/text文字,video,sounds
  • 舉辦期間,通常為2~3個月,一開始可以找已經開始一段時間的比賽,這時候在討論區往往會有相當的討論可以參考

Comments

Loading comments…

Leave a Comment