Loading...

Python/머신러닝 / / 2022. 5. 22. 20:27

머신러닝 13강. 타이타닉 생존자 찾기

반응형

같은폴더에 .csv 파일이 있으면 read_csv( )를 통해 바로 읽을 수 있다.

df = pd.read_csv("train.csv")
df

 

데이터프레임으로 만들어준다.

 

 

1. 컬럼 뽑기

tn = df.loc[:, ['Pclass', 'Sex', 'Age', 'Survived']]
tn

2. 정수화

loc를 사용해 Sex 행을 뽑은 다음 replace( )로 male, female 값을 1과 0으로 정수화 시켜주자.

기존데이터에 불변을 유지하지 않고 계속 변경하며 사용할 때 inplace = True를 걸어주면 된다.

디폴트는 불변을 유지하여 False이다.

tn.loc[:, "Sex"].replace(['female', 'male'], [0, 1], inplace=True)

 

3. 결측값 제거

NaN이 포함된 행을 결측치라고 한다.

해당 행으로는 분석이 불가능하다는 것이다.

 

NaN값을 0으로 바꿀수도 있고, 해당 행을 날려버릴 수도 있다.

 

(1) NaN을 0으로 바꾸는 메서드 fillna( )

tn.fillna(0)

 

(2) NaN이 있는 해당 row 날리기

 

NaN값이 포함되어있던 888번 행이 날아간것을 볼 수 있다.

tn.dropna(axis=0) # 0은 행 1은 열

 

반응형