표준편차 : 데이터분석을 위한 기본수학 - 10

반응형
반응형

표준편차 : 데이터 분석을 위한 기본 수학 - 10

 

빅데이터 분석을 위한 수학력

 

 안녕하세요 오늘도 데이터분석을 위한 기본 수학 10번째 시간으로, 분산에 이어 오늘은 표준편차에 대해서 알아보도록 할게요~!!

 

1. 표준편차

 분산은 평균으로부터의 차가 확실하게 보이므로 평균 주위에 흩어진 정도를 나타내기에는 아주 적합하지만 2가지 문제가 있습니다.

 

 (1) 값이 너무 커진다.

 (2) 단위가 [본래 단위^2] 이 됩니다.

 

 앞의 A반과 B반 데이터의 경우 

 

 A반의 분산 = 166.66....[점^2]

 B반의 분산 = 640 [점^2]

 

이었는데 이 값만 보면 '도대체 몇 점 만점인 시험이야?', '점^2은 뭐지..?'라는 생각이 드는 분들도 적지 않을 거예요

 

 심지어 이렇게 A반과 B반의 분산을 나란히 쓰면 A반이 평균 주변의 흩어진 정도가 적다는 것은 알 수 있지만 B반이라는 비교대상이 없다면 A반의 평균에서 떨어진 정도도(실제보다) 상당히 크다는 인상을 줍니다.

 

 그러나 위의 2가지 결점은 간단히 해결할 수 있습니다. 이미 알고 계시죠..?: 바로 2가지 데이터 모두 데이터의 평균으로부터 떨어진 정도를 '제곱해서' 계산함으로써 일어난 현상이므로 분산의 루트를 벗기면 됩니다.

 

 이 루트 분산을 '표준편차(standard Deviation)'이라고 합니다. A반과 B반의 데이터에 대한 표준편차를 구해보도록 해요

 

 A반의 표준편차=  루트(166.66.... [점^2]) = 12.9099... [점]

 B반의 표준편차 = 루트(640 [점^2]) = 25.298... [점]

 

A반이 약 13점이고 B반이 약 25점이므로 표준편차가 각 반의 흩어진 정도를 잘 표현한다고 할 수 있네요

 표준편차도 일반화해두면,

 

x1, x2, x3, x4, x5... xn

 

의  n개의 데이터에 대해서 표준편차를 sx라고 한다면 다음과 같습니다

 

sx = 루트 Vx = 루트 ( (x1-x(평균))^2 + (x2-x(평균))^2 + (x3-x(평균))^2 +.... +(xn-x(평균))^2) / n )

 

 식으로 나타내니 뭔가 복잡하고 대단해 보이지만 분산의 루트를 벗겼을 뿐입니다. 분산은 평균 주위의 흩어진 정도를 아는 데에는 탁월한 지표지만 계산이 귀찮은 것이 옥에 티입니다. 그래서 분산 계산을 좀 더 쉽게 할 공식을 알아볼게요. 앞의 곱셈 공식 중에서

 

(3) (x-a)^2 = x^2 - 2ax + a^2

 

을 활용합니다. (유도 및 증명은 생략할게요...)

 

Vx = 제곱의 평균 - 평균의 제곱

 

감사합니다.

 

 

 

 

반응형

댓글

Designed by JB FACTORY