1. 필요 라이브러리 불러오기

분석을 시작하기 전에 필요한 라이브러리를 불러옵니다.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from tensorflow import keras
import os

%matplotlib inline

2. 데이터 불러오기

타이타닉 분석에 필요한 Train 데이터와 Test 데이터를 다음과 같이 불러옵니다.

1) 데이터 불러오기

분석용 데이터는 train_df 테스트 데이터는 test_df로 정의합니다. 향후 test 데이터셋을 위해 predId를 먼저 만들어 놓습니다.

train_df = pd.read_csv('../Downloads/titanic/train.csv')
train_df.info()
test_df = pd.read_csv('../Downloads/titanic/test.csv')
test_df.info()
predId = test_df['PassengerId']

2) 데이터 전처리

2-1 불필요한 데이터 제외

불러온 데이터 중에서 Name, Cabin PassengerId, Ticket를 제외합니다. Train, Test 데이터셋 둘다 동일하게 적용합니다.

train_df = train_df.drop('Name', axis=1)
train_df = train_df.drop('Cabin', axis=1)
train_df = train_df.drop('PassengerId', axis=1)
train_df = train_df.drop('Ticket', axis=1)

test_df = test_df.drop('Name', axis=1)
test_df = test_df.drop('Cabin', axis=1)
test_df = test_df.drop('PassengerId', axis=1)
test_df = test_df.drop('Ticket', axis=1)

2-2 Age

Age는 결측값에 평균값을 적용하여 전처리를 합니다.

train_df['Age'] = train_df['Age'].fillna(train_df['Age'].mean())
test_df['Age'] = test_df['Age'].fillna(test_df['Age'].mean())

2-3 Embarked

Embark에는 어떤값이 있나 확인해볼까요?

train_df['Embarked'].unique()
test_df['Embarked'].unique()