데이터 정리를 위한 기본수학 -3

반응형
반응형

데이터 정리를 위한 기본 수학

빅데이터 분석에 필요한 기본 수학

안녕하세요

오늘도 데이터를 활용하고 사용하는데 필요한 기초적인 기본 수학-3(세 번째)를 공유드리려 합니다.

* 해당 내용은 '통계가 빨라지는 수학력(나가노 히로유키)'의 내용입니다 :)

반응형

1.  데이터와 변량

  '데이터'와 '변량'의 정의를 확인해보자

 

예를 들어 A반의 수학 시험 점수가 아래와 같다면

 

50 60 40 30 70 50 (점) 

 

이 6개의 값 전체를 '데이터(data)'라고 한다.

그리고 조사 대상이 되는 항목(이 경우는 수학시험 점수)이 변량(variate)이 된다

 

 * 변량은 변수(variable)이라고도 한다. 통계에서는 엄밀히 따지면 다른 용어지만 비슷한 걸로 볼 수 있다.

 

 

질적 데이터

 '질적 데이터'란 '카테고리 컬 데이터'라고도 불리며 혈액형이나 선호하는 음식, 지지하는 정당 등과 같이 헤아릴 수 없는

변량(질적 변량)으로 이루어진 것을 말한다. 질적 데이터는 '1:A형, 2:B형, 3:O형, 4:AB형'과 같이 각 선택 항목에

번호를 붙였을 때 이 숫자를 더하거나 빼는 일이 무의미하다

 

양적 데이터

 숫자를 더하거나 빼는 것에 의미가 있는 변량(양적 변량)으로 이루어진 데이터를 '양적 데이터'라고 한다.

양적 데이터는 다시 둘로 분류할 수 있는데 하나는 주사위의 눈이나 자동차 대수, 사람 수 등과 같이

듬성듬성한 값만 얻을 수 있는 것(이산형 데이터)이고 다른 하나는 키나 체중, 시간 등과 같이 연속하는 값을 얻을 수

있는 것(연속형 데이터)이다.

 

 '이산형 데이터' 나 '연속형 데이터'라는 용여가 익숙해지지 않으면 어렵게만 느껴진다. 쉽게 말해 '이산형 데이터란'

이웃하는 2개 사이에 다른 값이 없는 것을 말한다. 예를 들면 주사위는 1과 2 사이에 '1.5'라는 눈은 없다. 

또 자동차를 셀 때 10대와 11대 사이에 '10.5'대라는 값을 얻을 수도 없다. 이처럼 데이터를 수치 선상에 놓았을 때

듬성듬성한 값만 얻을 수 있는 것이 '이산형'이다

 

 그러나 키의 경우 170cm와 171cm 사이에 170.5cm인 사람도 있고 170.5cm와 170.6cm 사이에 170.55cm인 사람이

있어도 이상하지 않다. 이처럼 아무리 세분화시켜도 많은 데이터가 모이는 경우가 '연속형'이다.

 

데이터를 정리할 때 가장 기본적인 순서는 다음과 같다.

 

(1) 도수분포표로 정리한다

(2) 히스토리 그램을 만든다.

 

도수분포표

 

- 계급 : 데이터를 몇 개의 동등한 폭으로 나눈 구간

- 계급 값 : 각 계급의 중앙값

- 도수 : 각각의 계급에 들어가는 데이터의 수

- 상대 도수 : 도수의 합계에 대한 각 계급 도수의 비율

- 누적상대도수 : 그 계급 이하의 상대 도수의 합계

 

 도수분포표란 각 계급마다 도수, 상대 도수, 누적상대도수 등을 정리한 표다. 

예를 하나 들어보자. 수학학원에서 학생 40명에게 쪽지시험(100점 만점)을 실시했다

아래의 표만 봐서는 데이터의 전체적인 경향이나 특징을 알 수 없다. 그래서 도수분포표로 정리하기로 했다

51 60 80 39 70 55 51 96
92 82 54 44 94 77 43 13
34 44 81 28 88 33 97 65
88 93 88 48 30 28 92 57
52 21 59 78 65 80 37 68

 

도수분포표로 정리하기 전에, 점수순으로 정리

13 21 28 28 30 33 34 37
39 43 44 44 48 51 51 52
54 55 57 59 60 65 65 68
70 77 78 80 80 81 82 88
88 88 92 92 93 94 96 97

 다음으로 해야 할 일은 계급의 폭을 정하는 것이다.

'10 이상 ~ 15 미만' , '15 이상~20 미만'... 등 5점마다 하든, '0~20 미만', '20~40 미만' 등으로 20점마다 하든..

계급의 폭이 너무 좁으면 표가 복잡해지고, 반대로 너무 넓으면 데이터의 경향을 알기 힘드므로 주의해야 한다

 

 * 계급의 폭을 정할 때는 다음과 같은 JIS 규격이 있다.

[계급 폭의 결정(JIS:Z9041-1)]

 

최솟값과 최댓값을 포함해 5~20에서 똑같은 간격으로 나눠지도록 구간의 폭을 정한다.

즉 계급 폭은 R(범위)을 1, 2 , 5(또는 10, 20, 50; 0.1, 0.2, 0.5 등) 등으로 나눴을 때 드 값이 5~20 사이에 있는 것을

선택하면 된다. 만일 둘 이상이라면 샘플 크기가 100 이상인 경우에는 폭이 작은 것을, 99 이하인 경우에는 폭이

큰 것을 이용한다.

 

간단히 정리하면 다음과 같다

 - 계급의 폭은 1,2,5,10,20,50 등에서 자르기 좋은 값을 선택한다

 - 계급의 수가 5~20의 범위 내에 있게 한다.

 - 계급의 종류가 너무 많거나 너무 적거나 하지 않게 한다.

 

 위의 예에서는 R(범위) = 97(최댓값) - 13(최솟값) = 84이며,

 

84 / 1 = 84

84 / 2 = 42

84 / 5 = 16.8

84 / 10 = 8.4

84 / 20 = 4.2

 

이므로, 몫이 '5~20'이 되는 것은 5나 10으로 나누었을 때이다.

지금의 샘플의 크기(학생 수)는 40(명) 이므로, 99 이하에서 계급의 폭이 큰 쪽, 즉 '10을' 선택하는 것이

JIS 규격에 정합하다

 

 수학학원 쪽지시험 결과(도수분포표)

계급(점) 계급값(점) 도수(명) 상대도수 누적상대도수
이상~미만
10~20
15 1 0.025 0.025
20~30 25 3 0.075 0.100
30~40 35 5 0.125 0.225
40~50 45 4 0.100 0.325
50~60 55 7 0.175 0.500
60~70 65 4 0.100 0.600
70~80 75 3 0.075 0.675
80~90 85 7 0.175 0.850
90~100 95 6 0.150 1.000
합계 - 40 1.000  

 

 도수분포표를 볼 때 주의점

 (1) 도수분포표에서는 각 데이터의 구체적인 값은 알 수 없다.

예를 들면 원래 데이터에서는 40 이상 50 미만 데이터가 43,44,44,48로 4개인데 도수분포 표상에는 이들 모두 

계급 값 45로 생각한다. 계급 값이 그 계급을 대표한다

 (2) 상대 도수는 도수의 합계에 대한 각 계급 도수의 비율 이므로

 

 상대도수 = 주목하고 있는 계급의 도수 / 도수의 합계

 

로 계산한다. 40 이상 50 미만의 경우 

 

 상대 도수는 = 4 / 40 = 0.100

 

 (3) 주목하는 도수가 전체의 몇 %에 해당하는가 보다는 주목하는 계급 이하(이상)가 전체의 몇 % 이하(이상)가 되는지

알고 싶을 때도 있다. 그럴 때는 누적상대도수를 보자

 예를 들면 10 이상~60 미만인 누적도수는

 0.025+0.075+0.125+0.100+0.175 = 0.500으로 60점 미만인 학생이 전체의 50%를 차지하고 있음을 알 수 있다.

 

 

 다음 글에서 또 만나요~!

 

 

 

 

 

반응형

댓글

Designed by JB FACTORY