1. SAS로 해보는 Titanic 데이터 분석

1) 데이터 읽어오기

1-1. 문제 정의하기

이 챕터에서는 SAS로 타이타닉 생존자/사망자 데이터를 분석하게 됩니다. 앞서 Python으로 한 분석을 SAS의 Logistic 모델과 머신러닝 모델을 이용하여 진행하게 됩니다. 간단한 분석을 통해 데이터 확인 / 시각화 / 모델 구축을 진행해보고 Kaggle에 결과를 제출하는 것으로 마무리됩니다.

1-2. SAS 프로그램 실행

설치하신 SAS University Edition을 실행시키시면 다음과 같은 화면이 뜨게 됩니다. 여기서 "JupyterLab 시작"을 눌러서 프로그램을 실행시킵니다. 설치 및 실행방법은 앞서 1.2 SAS환경세팅을 참고하시길 바랍니다.

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/34c1de27-8d47-410a-9e98-2b0931ffedc0/Untitled.png

1-3 데이터 가져오기

  1. SAS University에 데이터 가져오기

Sas University Jupyter Lab의 왼쪽 창을 보면 현재 3가지 파일이 있어요. 그 중 Titanic 폴더에 분석을 위한 데이터 파일(.csv)이 있고, 현재 작업중인 titanic.ipynb 파일을 볼 수 있습니다.

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/08cd9f53-d488-40be-9742-40f49026b9ac/Untitled.png

데이터를 불러오게 하기 위해 미리 다운로드 된 파일(2.4 타이타닉 - Python1 참조)을 왼쪽 창에 드래그 하면 옮길 수 있고, 다 옮겨지게 되면 다음과 같습니다.

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/679e425b-c89b-4fdb-a393-e7abcb6f6557/Untitled.png

  1. 데이터 불러오기 - Libname 활용

이제 데이터 분석을 위한 라이브러리 지정을 해야하는데 라이브러리 지정은 단순하게 말해 데이터를 불러오거나 저장할 수 있는 폴더를 지정하는 것입니다. %LET 매크로 함수를 활용하여 PATH 변수를 'titanic/' 로 지정합니다. train데이터와 test데이터가 titanic폴더에 들어있기때문에 titanic/ 으로 설정했고, Libname 함수를 사용하여 라이브러리 이름을 TITAN으로 정하고 ""안에 &PATH를 지정하여 작업을 마무리 합니다.

/* PATH에 타이타닉 폴더 경로 지정*/
%LET PATH=titanic/;
/* 
LIBNAME TITAN "&PATH";