반응형
같은폴더에 .csv 파일이 있으면 read_csv( )를 통해 바로 읽을 수 있다.
df = pd.read_csv("train.csv")
df
데이터프레임으로 만들어준다.
1. 컬럼 뽑기
tn = df.loc[:, ['Pclass', 'Sex', 'Age', 'Survived']]
tn
2. 정수화
loc를 사용해 Sex 행을 뽑은 다음 replace( )로 male, female 값을 1과 0으로 정수화 시켜주자.
기존데이터에 불변을 유지하지 않고 계속 변경하며 사용할 때 inplace = True를 걸어주면 된다.
디폴트는 불변을 유지하여 False이다.
tn.loc[:, "Sex"].replace(['female', 'male'], [0, 1], inplace=True)
3. 결측값 제거
NaN이 포함된 행을 결측치라고 한다.
해당 행으로는 분석이 불가능하다는 것이다.
NaN값을 0으로 바꿀수도 있고, 해당 행을 날려버릴 수도 있다.
(1) NaN을 0으로 바꾸는 메서드 fillna( )
tn.fillna(0)
(2) NaN이 있는 해당 row 날리기
NaN값이 포함되어있던 888번 행이 날아간것을 볼 수 있다.
tn.dropna(axis=0) # 0은 행 1은 열
반응형