精通資料分析|使用Excel、Python和R 第一部分1-5章

精通資料分析|使用Excel、Python和R 第一部分1-5章

精通資料分析|使用Excel、Python和R 第一部分1-5章

探索式資料分析(EDA),主要是認為分析師們需要先探索資料,找出潛在問題,才能進度假說檢定跟推論統計

對於資料,變數可以分類成定量變數與類別變數(categorical),定量下又可以分成連續變數(例如float)跟離散變數(例如整數)

而在推論機率時,假設一個資料符合常態分佈,那我們可以假定68-95-99.7法則,也就是有68%的資料會在平均值的正負一個標準差內,95%資料在兩個,99.7資料會在三個標準差內

因此可以帶出推論統計,也就是在兩個資料組內,我們可以先做兩個假設

H0:假設A不影響B(虛無假設)

Ha:假設A影響B

算出來的p-value,表示的是有多少的機率我們的H0假設為真,一般常用的機率標準為5%,也就是說如果P-value極大小於5%,表示虛無假設可能性很低,因此Ha假設為真的機率較高,所以A跟B具有影響

而我們可以再根據p-value算出信心區間的高低值,如果以裝冷氣對房價影響,我們也許可以解釋為裝冷氣對房價具有影響性,裝有冷氣的房子在XX%信心程度下,具有(價格上限)到(價格下限)的影響,在解釋給大眾聽時會更具有理解性。

第四章說到關聯性,線性回歸,也可以用來檢定兩個值是否具有關聯性,但作者也強調"相關性是因果的必要條件,但不是充分條件",即使兩個數據具有關聯性,也不表示他們具有因果。

最後第五章介紹通用的資料分析/商業分析/機器學習等的意義。

Comments

Loading comments…

Leave a Comment