1. 캐글이란

캐글은 데이터 분석 대회, 예측 모델 대회 플랫폼입니다. 한국에는 비슷한 플랫폼으로 데이콘이라는 사이트가 있어요. 기업들이 풀어야할 문제, 또는 지금 채용하게 되면 수행할 문제를 등록하게 되면, 데이터 과학자들이 이를 해결하면서 채용까지 연계되는 플랫폼입니다. 채용까지 연계를 안하고 대회 만 하는 경우도 많습니다.

캐글은 2010년도에 설립이 되었는데요. 제출한 코드를 남들도 볼 수 있고, 순위도 볼 수 있으며, 해당 순위에 해당하는 코드를 보면서 '이렇게 분석하면 예측율이 올라가는 구나' 등의 인사이트를 얻을 수 있기 때문에 데이터 과학자들 사이에서 엄청난 인기를 끌고 있는 플랫폼입니다.

2. Titanic 대회 개요

이중에서도 캐글의 튜토리얼이라 불리는 타이타닉 생존자 예측은, 데이터 이해가 쉽고, 분석 결과를 도출하기 쉬워 캐글 입문으로 많이 활용되는 데이터입니다.

출처 : 나무위키

출처 : 나무위키

여객선 RMS 타이타닉은 1912년 4월 10일 영국에서 출항해 프랑스에 기항한 후 미국 뉴욕을 향해 출항했고, 1912년 4월 14일 밤 11시 40분에 침몰한 사건입니다. 해당 배가 어떻게 침몰했는지 리얼타임으로 다루고 있는 영상을 아래 첨부합니다. 영상을 첨부한 이유는, 객실이 어디에 있었는지(Python 데이터 분석에서 객실 위치 이미지를 추가해 놓았습니다), 어디가 먼저 잠겼는지를 파악하면 좀 더 정밀한 예측이 가능하기 때문입니다.

https://youtu.be/rs9w5bgtJC8

이 경진대회의 목표는 어떤 사람들이 생존할 가능성이 더 높았는지에 대해 모델을 구하는 것입니다. 승객의 정보(나이, 성별, 객실 등급 등)를 사용하여 사망/생존을 예측하게 됩니다.

데이터는 2개로 나뉘어 있습니다. train.csv는 모델을 학습시키기 위한 데이터, 모델로 실제 생존율을 맞춰보는 test.csv데이터가 있습니다. 따라서 test.csv는 생존과 사망 필드가 없습니다.

워낙 많은 데이터 분석과 시각화 자료가 나와있기 때문에, 유튜브에서도 손쉽게 해당 자료를 찾아보실 수 있습니다. 참고하였던 자료를 여기 함께 업로드 합니다.

참조

캐글 - 타이타닉 생존자 예측하기 [1/3] - 데이터 분석

캐글 타이타닉 데이터 분석 및 시각화