Kaggle練習-Titanic Practice起手版 (TBC)

Dana Huang

May 4, 2021

kaggle是一直聽到很有指標性練習的題目，網路上現在的相關文獻與分享也是非常多元，這邊已看到一些不錯文章，我再歸納成自己想法做心得分享。

kaggle題目 https://www.kaggle.com/c/titanic

首先來到背景介紹，這一題是kaggle的初級題目，算是machine learning(ML)的分類(classification)問題 — 生存/死亡，預測乘客搭了鐵達尼最後有無活了下來。

背景說明

看過電影都知道，鐵達尼號是死傷很慘烈的災難...，雖然用愛情作為包裝，活生生就是個幾乎全船死亡的意外事故，而kaggle這個活動，就是要來看看，這之中到底誰生存，誰死亡了。由下圖，我們可以看出，能否搭上救生艇是個關鍵因素。

我綜合了幾篇大大的文章(如最後reference)，看得出來，最關鍵的因素如下:

我們可以知道，要做數據模型，變數好壞更甚於模型的選擇，因為誰可以搭上船，跟這個人本身的特質很有關係，是否有錢拉~是否是女生~是否是小孩???。

所以，這個比賽的關鍵重點，是能否先做出能讓模型套用的最佳變數組合，這之中又包括了一些資料處理、feature engineering還有模型配適等數據分析技術。

來從這幾個key point來深入剖析，分別從問題分析、資料匯入、資料清理、EDA(敘述統計)、變數選擇和模型選擇來簡單說明。關於做資料的步驟，我自己更喜歡的是Google Data Analytic Certificate的流程，課程順序就是做資料分析的順序，因為提到要一直ask question，這是工作以來我覺得真的很重要的事情!

1. 問題分析

從kaggle的overview頁籤，列出了問題說明還有評分方式，這題真的是kaggle的入門題目，因為題目好懂，評分方式也算很清楚(就是預測人數正確率越高就贏了XD)，accuracy計算方式，就是二元分類矩陣的方法:

Accuracy = (TP + TN)/(TP + TN + FP + FN)

試想，你做預測時候，一定是猜測對方是0(死亡)或1(生存)，然後你猜測的本身一定有個正確答案(0或1)，所以你猜測的後的結果會有四種狀況，

TP: 真的活著，你也猜他活著
TN:真的死亡，你也猜他死亡
FP:其實沒死，但你猜他死亡
FN:真的死亡，但你猜他活著

所以正確率就是所有狀況之中的1+2的占比: 也就是 1+2/(1+2+3+4)

以上，是本題目的目標。

接下來，我參考了很多偏kaggler的文章，彙整完整步驟和讀書心得。

使用工具

我將使用的工具是Google的colab，以python程式碼進行。(免費又很popular的code)。這邊有個插曲，由於公司目前要使用Dataiku (DSS)雲端線上平台做資料分析，所以本題我也將用它來練習，所以會分DSS和和colab版本，先以DSS版本為主，我再把它全部化為python語法做更多練習。DSS版本因為要有授權，可以看看畫面清楚就好了，google colab步驟再說明詳盡一些。

我的coding