여기서는 SAS UNIVERSITY 에서 사용할 수 있는 다양한 회귀분석 모델을 가지고 분석을 진행해보는 예제를 다뤄볼 예정입니다.

대부분의 SAS 유저들이 SAS를 이용한 회귀분석은 학교 수업이나 다른 교재들을 통해 한번쯤을 다뤄봤을거라 생각하여 보스턴 주택 가격 분석 데이터를 선정했습니다.

1. 개요

캐글의 고전적인 문제이고 머신러닝을 공부하는 사람이라면 누구나 한번쯤 다뤄봤을 Boston house price dataset을 통해 회귀분석을 하는 과정을 연습할 수 있습니다.

정식 대회 명칭은 House Price Advanced Regression Techniques입니다.

여러가지 집에 관련된 데이터를 활용하여 주택 가격을 예측하는 것이 목표이고, 다양한 변수들을 다뤄봄으로써 데이터 분석역량을 더 높일 수 있습니다. 옛날이나 지금이나 집값에 관심이 높은건 여전한가 봅니다.

이번 분석에서의 목표는 연속형 변수를 타겟으로 한 모델을 만들어보고 캐글에 제출해보는 것 입니다.

2. 데이터 분석 - 베이스 라인 만들기

회귀분석과 Lasso 회귀분석을 이용한 캐글에 제출할 베이스라인 모델을 만들어 보도록 하겠습니다.

1) 데이터 읽어오기

1-1 데이터 옮기기

House라는 폴더를 하나 생성한 뒤 다운 받은 데이터셋을 드래그하여 house 폴더에 옮겨놓습니다. 관련 데이터셋은 파일은 하단에 첨부해두었습니다.

train_SU.csv

test_SU.csv

1-2 라이브러리 설정

PATH를 house 폴더 주소로 지정하고, Libname 구문을 사용하여 house라는 라이브러리 이름을 설정하고, "&PATH"를 입력한 뒤 실행합시다.

%LET PATH=house/;

LIBNAME house "&PATH";