분산 : 데이터 분석을 위한 기본수학 - 9

반응형
반응형

분산 : 데이터 분석을 위한 기본 수학 - 9

 

빅데이터를 위한 수학력

 

 

안녕하세요 오늘도 데이터 분석에 필요한 기본 수학 아홉 번째 시간입니다.

오늘은 분산에 대해서 설명드리겠습니다~!

 

사실 제곱근, 분배법칙 , 곱셈 같은 기초적인 것까지 자세히 설명드렸습니다..

오늘 배우는 분산(Vx)를 구하는 공식을 끌어내려면 곱셈 공식이 필요하고, 분산에서 표준편차를 구할 때도

루트 계산이 중요합니다.

1. 분산

 

 여기서의 목표는 평균을 기준으로 해서 흩어진 정도를 조사하는 것입니다.

앞에서 배웠던 A반과 B반의 데이터를 사용해서 그 방법을 살펴보겠습니다.

 

 A반 : 50 60 40 30 70 50 

 B반 40 30 40 40 100

 

 먼저 각 반의 평균(두 반 모두 50점)과의 차를 정리해봅니다

 

A반(평균 : 50점)

점수 50 60 40 30 70 50
점수-평균 0 10 -10 -20 20 0

B반(평균 : 50점)

점수 40 30 40 40 100  
점수-평균 -10 -20 -10 -10 50  

 

 다음으로 각 반의 '점수-평균'의 평균을 구해본다

 

A 반 =   (0 + 10 + (-10) + (-20) + (20) + 0) / 6 = 0/6 = 0 [점]

B 반 = ((-10) + (-20) + (-10) + (-10) + 50 ) / 5 = 0/5 = 0 [점]

 

 둘 다 0 점이 되었네요. 이건 우연이 아닙니다 원래 평균은

 

평균 = 기준값 + 기준값의 차의 평균

 

으로 구할 수 있으므로 기준값에 평균을 사용하면 ' 기준값으로부터의 차의 평균'이 0이 되는 것은

당연합니다. 

 

즉 '점수-평균'의 평균으로는 평균 주위의 흩어진 정도를 조사할 수 없어요 그 값이 음수나 양수가 돼 각각

제거되어 평균으로부터 떨어져 있는 것이 보이지 않게 되기 때문입니다.

그래서 '점수-평균'이 음수 값이 되어도 차가 보이도록 '점수-평균'을 제곱한 다음 그 평균을 구해보시죠!!!

 

A반(평균 : 50점)

점수 50 60 40 30 70 50
점수-평균 0 10 -10 -20 20 0
(점수-평균)^2 0 100 100 400 400 0

B반(평균 : 50점)

점수 40 30 40 40 100  
점수-평균 -10 -20 -10 -10 50  
(점수-평균)^2 100 400 100 100 2500  

(점수-평균)^2의 평균

 

A 반 =   (0 + 100 + 100 + 400 + 400 + 0) / 6 = 1000/6 = 166.666 [점^2]

B 반 = ((100+ 400 + 100 + 100 + 2500 ) / 5 = 3200/5 = 640 [점^2]

 

 음수 값도 제곱하면 양수가 되므로 이렇게 하면 A반과 B반의 차이가 확실하게 보인다.

이처럼 음수든 양수든 평균으로부터 떨어진 정도가 잘 보일 수 있도록 고안된 '(평균으로부터의 차)^2의 평균'을

'분산(variance)'이라고 합니다.

 

분산을 구하는 방법

 

(1) 데이터의 평균을 구한다

(2) 각 데이터에 대해서 '값 - 평균'을 구한다

(3) 각 데이터의 '(값-평균)^2'을 구한다

(4) (값-평균)^2의 평균을 구한다

 

일반적으로 x1, x2, x3,..., xn으로 전부 n개의 데이터가 있을 때 분산을 Vx라고 하면

다음과 같이 나타낼 수 있다.

 

분산의 정의

 

Vx = ( (x1-x(평균))^2 + (x2-x(평균))^2 + (x3-(평균)^3 +... + ( xn - x(평균))^2) ) / n

 

감사합니다.

 

반응형

댓글

Designed by JB FACTORY