Kaggle 初學者筆記
Kaggle 初學者筆記¶
參考為:https://github.com/upura/python-kaggle-start-book/blob/master/README_EN.md
書名是Kaggle 大師教您用Python
第一章節教如何註冊
2.4節: 特徵工程:例如把家庭人數轉化成是否單獨一人
還有當歲數有空值,可以找出平均值與標準差,去把空值給值,但這樣子做缺點是模型的本身可預測性會比較差,因為補的值每次可能都不一定,這時候可以用鎖定seed的方式補值
2.5節: 嘗試使用不同的ML model去train dataset
2.7 節: cross_validation的重要性: 為了避免對於train data over fitting,這時候可以透過把dataset 拆成更多包,更好的training
3.1節: 面對現實的data,把資料做merge也是資料工程的重要手法
3.2節,介紹圖像競賽,如何用圖像辨識識別
第四章開始是作者給想參加比賽的人的建議:
- 認識你參加比賽的資料類型,例如tabular data(表格資料),image/影像,nlp/text文字,video,sounds
- 舉辦期間,通常為2~3個月,一開始可以找已經開始一段時間的比賽,這時候在討論區往往會有相當的討論可以參考
Comments
Loading comments…
Leave a Comment