Loading...

Python/머신러닝 / / 2022. 5. 14. 16:47

머신러닝 3강. 표준 점수

반응형

표준 점수(standard score) : 각 특성 값이 평균에서 표준편차의 몇 배만큼 떨어져있는지를 나타냄

 

 

A학교 

 60 80 80 80 100 => 400 (평균 80)

-20  0  0   0 +20 => 평균으로부터 얼마나 떨어져 있는지의 점수

 

B학교

 40 60 60 60 80 => 300 (평균 60)
-20  0  0   0 +20 => 평균으로부터 얼마나 떨어져 있는지의 점수

 

 

정규분포는 가장 평균이 되는 곳에 가장 많이 몰려있다

 

평균에서 데이터가 얼마나 떨어져 있는지의 점수를 모두 더해서 평균을 낸 것을 분산이라고 한다.

 

1. 분산

(데이터 - 평균) 제곱의 합 / 데이터 개수

 

모든 데이터의 분산을 다 더하면 0이 나와서 평균을 구할 수 없다.

부호를 없애기 위해 제곱을 사용한다.

 

-20  0 0 0 +20

400 0 0 0 400 = 800

 

2. 표준 편차

분산의 제곱근

 

분산은 800을 5로 나눠서 160이 된다.

편차 값이 너무 크니까 제곱근을 해준다.

 

160의 제곱근(√160)이 표준 편차이다.

 

결국 A학교와 B학교의 원점수는 다르지만 표준 편차는 같다.

 

전체적인 분산은 데이터마다 각각 다르지만

평균적으로 √160만큼 떨어져있다.

 

모든 데이터에는 오차가 있기 마련이다.

데이터 80은 평균이 80이라서 오차가 없음에도 편차는 √160이 나왔으니까.

 

각각 다 √160만큼 떨어진 게 아니라는 말이다.

 

오차율이 √160이지만 일반적으로 다 √160만큼 떨어져 있다고 보는 것이다.

전체적으로 계산해보면 맞으니까.

 

3. 표준점수

 

표준점수 = (원점수 - 평균) / 표준편차

 

원점수 60점에 평균을 뺀 값에서 표준편차를 나눠준다.

(60-80) / √160 한 값이 표준점수이다.

 

표준점수의 핵심은 평균으로부터 얼마나 떨어져 있는가를 확인하는 것이다.

각각 점수마다 떨어져있는 정도가 다 다르기 때문에

떨어져있는 정도에 평균을 낸 게 표준 편차이다.

 

표준점수를 사용하면 상대적으로 비교가 가능하다.

 

 

[출처]

 

혼자 공부하는 머신러닝 + 딥러닝

 

머신러닝+딥러닝 » 혼자 공부하는 책

혼자 공부하는 머신러닝 딥러닝, 무료 동영상 강의, 머신러닝+딥러닝 용어집을 다운로드 하세요. 포기하지 마세요! 독학으로 충분히 하실 수 있습니다. ‘때론 혼자, 때론 같이’ 하며 힘이 되겠

hongong.hanbit.co.kr

 

반응형