데이터 전처리와 새로운 변수 생성, 다양한 모델을 이용한 분석을 더 진행해봅시다. 본 분석에서는 SAS 9.4를 이용합니다.

1. 데이터 전처리

1) 라이브러리 지정

libname 구문을 이용하여 house라는 라이브러리를 지정합니다. ' ' 사이에 본인에게 맞는 폴더 경로를 입력합니다.

libname house 'C:\\Users\\help\\Downloads\\house-prices-advanced-regression-techniques (2)';

2) 데이터 불러오기

SAS에서 데이터를 사용하기 위해 Proc Import를 사용하여 Train/Test 데이터를 불러옵시다.

2-1 Train 데이터 불러오기

PROC IMPORT DATAFILE = "C:\\Users\\help\\Downloads\\house-prices-advanced-regression-techniques (2)\\TRAIN.CSV"
DBMS = CSV
OUT = House.TRAIN
REPLACE;
RUN;

2-2 불필요한 변수 제거

DATA House.TRAIN_1;
SET House.TRAIN;
DROP Street Alley Utilities Condition2  RoofMatl BsmtFinType2
BsmtFinSF2 Heating LowQualFinSF WoodDeckSF OpenPorchSF
PoolArea PoolQC MiscFeature MiscVal MoSold YrSold;
RUN;

2-3 Test 데이터 불러오기

Test 데이터는 향후 Scoring 할때 Train 데이터의 전처리된 모든 내용을 그대로 수행해야합니다.

PROC IMPORT DATAFILE = "C:\\Users\\help\\Downloads\\house-prices-advanced-regression-techniques (2)\\TEST.CSV"
DBMS = CSV
OUT = House.TEST
REPLACE;
RUN;

2. 기초 분석