데이터 정리를 위한 기본수학 -3
- 재테크
- 2022. 7. 19. 21:37
데이터 정리를 위한 기본 수학
빅데이터 분석에 필요한 기본 수학
안녕하세요
오늘도 데이터를 활용하고 사용하는데 필요한 기초적인 기본 수학-3(세 번째)를 공유드리려 합니다.
* 해당 내용은 '통계가 빨라지는 수학력(나가노 히로유키)'의 내용입니다 :)
1. 데이터와 변량 |
'데이터'와 '변량'의 정의를 확인해보자
예를 들어 A반의 수학 시험 점수가 아래와 같다면
50 60 40 30 70 50 (점)
이 6개의 값 전체를 '데이터(data)'라고 한다.
그리고 조사 대상이 되는 항목(이 경우는 수학시험 점수)이 변량(variate)이 된다
* 변량은 변수(variable)이라고도 한다. 통계에서는 엄밀히 따지면 다른 용어지만 비슷한 걸로 볼 수 있다.
질적 데이터
'질적 데이터'란 '카테고리 컬 데이터'라고도 불리며 혈액형이나 선호하는 음식, 지지하는 정당 등과 같이 헤아릴 수 없는
변량(질적 변량)으로 이루어진 것을 말한다. 질적 데이터는 '1:A형, 2:B형, 3:O형, 4:AB형'과 같이 각 선택 항목에
번호를 붙였을 때 이 숫자를 더하거나 빼는 일이 무의미하다
양적 데이터
숫자를 더하거나 빼는 것에 의미가 있는 변량(양적 변량)으로 이루어진 데이터를 '양적 데이터'라고 한다.
양적 데이터는 다시 둘로 분류할 수 있는데 하나는 주사위의 눈이나 자동차 대수, 사람 수 등과 같이
듬성듬성한 값만 얻을 수 있는 것(이산형 데이터)이고 다른 하나는 키나 체중, 시간 등과 같이 연속하는 값을 얻을 수
있는 것(연속형 데이터)이다.
'이산형 데이터' 나 '연속형 데이터'라는 용여가 익숙해지지 않으면 어렵게만 느껴진다. 쉽게 말해 '이산형 데이터란'
이웃하는 2개 사이에 다른 값이 없는 것을 말한다. 예를 들면 주사위는 1과 2 사이에 '1.5'라는 눈은 없다.
또 자동차를 셀 때 10대와 11대 사이에 '10.5'대라는 값을 얻을 수도 없다. 이처럼 데이터를 수치 선상에 놓았을 때
듬성듬성한 값만 얻을 수 있는 것이 '이산형'이다
그러나 키의 경우 170cm와 171cm 사이에 170.5cm인 사람도 있고 170.5cm와 170.6cm 사이에 170.55cm인 사람이
있어도 이상하지 않다. 이처럼 아무리 세분화시켜도 많은 데이터가 모이는 경우가 '연속형'이다.
데이터를 정리할 때 가장 기본적인 순서는 다음과 같다.
(1) 도수분포표로 정리한다
(2) 히스토리 그램을 만든다.
도수분포표
- 계급 : 데이터를 몇 개의 동등한 폭으로 나눈 구간
- 계급 값 : 각 계급의 중앙값
- 도수 : 각각의 계급에 들어가는 데이터의 수
- 상대 도수 : 도수의 합계에 대한 각 계급 도수의 비율
- 누적상대도수 : 그 계급 이하의 상대 도수의 합계
도수분포표란 각 계급마다 도수, 상대 도수, 누적상대도수 등을 정리한 표다.
예를 하나 들어보자. 수학학원에서 학생 40명에게 쪽지시험(100점 만점)을 실시했다
아래의 표만 봐서는 데이터의 전체적인 경향이나 특징을 알 수 없다. 그래서 도수분포표로 정리하기로 했다
51 | 60 | 80 | 39 | 70 | 55 | 51 | 96 |
92 | 82 | 54 | 44 | 94 | 77 | 43 | 13 |
34 | 44 | 81 | 28 | 88 | 33 | 97 | 65 |
88 | 93 | 88 | 48 | 30 | 28 | 92 | 57 |
52 | 21 | 59 | 78 | 65 | 80 | 37 | 68 |
도수분포표로 정리하기 전에, 점수순으로 정리
13 | 21 | 28 | 28 | 30 | 33 | 34 | 37 |
39 | 43 | 44 | 44 | 48 | 51 | 51 | 52 |
54 | 55 | 57 | 59 | 60 | 65 | 65 | 68 |
70 | 77 | 78 | 80 | 80 | 81 | 82 | 88 |
88 | 88 | 92 | 92 | 93 | 94 | 96 | 97 |
다음으로 해야 할 일은 계급의 폭을 정하는 것이다.
'10 이상 ~ 15 미만' , '15 이상~20 미만'... 등 5점마다 하든, '0~20 미만', '20~40 미만' 등으로 20점마다 하든..
계급의 폭이 너무 좁으면 표가 복잡해지고, 반대로 너무 넓으면 데이터의 경향을 알기 힘드므로 주의해야 한다
* 계급의 폭을 정할 때는 다음과 같은 JIS 규격이 있다.
[계급 폭의 결정(JIS:Z9041-1)]
최솟값과 최댓값을 포함해 5~20에서 똑같은 간격으로 나눠지도록 구간의 폭을 정한다.
즉 계급 폭은 R(범위)을 1, 2 , 5(또는 10, 20, 50; 0.1, 0.2, 0.5 등) 등으로 나눴을 때 드 값이 5~20 사이에 있는 것을
선택하면 된다. 만일 둘 이상이라면 샘플 크기가 100 이상인 경우에는 폭이 작은 것을, 99 이하인 경우에는 폭이
큰 것을 이용한다.
간단히 정리하면 다음과 같다
- 계급의 폭은 1,2,5,10,20,50 등에서 자르기 좋은 값을 선택한다
- 계급의 수가 5~20의 범위 내에 있게 한다.
- 계급의 종류가 너무 많거나 너무 적거나 하지 않게 한다.
위의 예에서는 R(범위) = 97(최댓값) - 13(최솟값) = 84이며,
84 / 1 = 84
84 / 2 = 42
84 / 5 = 16.8
84 / 10 = 8.4
84 / 20 = 4.2
이므로, 몫이 '5~20'이 되는 것은 5나 10으로 나누었을 때이다.
지금의 샘플의 크기(학생 수)는 40(명) 이므로, 99 이하에서 계급의 폭이 큰 쪽, 즉 '10을' 선택하는 것이
JIS 규격에 정합하다
수학학원 쪽지시험 결과(도수분포표)
계급(점) | 계급값(점) | 도수(명) | 상대도수 | 누적상대도수 |
이상~미만 10~20 |
15 | 1 | 0.025 | 0.025 |
20~30 | 25 | 3 | 0.075 | 0.100 |
30~40 | 35 | 5 | 0.125 | 0.225 |
40~50 | 45 | 4 | 0.100 | 0.325 |
50~60 | 55 | 7 | 0.175 | 0.500 |
60~70 | 65 | 4 | 0.100 | 0.600 |
70~80 | 75 | 3 | 0.075 | 0.675 |
80~90 | 85 | 7 | 0.175 | 0.850 |
90~100 | 95 | 6 | 0.150 | 1.000 |
합계 | - | 40 | 1.000 |
도수분포표를 볼 때 주의점
(1) 도수분포표에서는 각 데이터의 구체적인 값은 알 수 없다.
예를 들면 원래 데이터에서는 40 이상 50 미만 데이터가 43,44,44,48로 4개인데 도수분포 표상에는 이들 모두
계급 값 45로 생각한다. 계급 값이 그 계급을 대표한다
(2) 상대 도수는 도수의 합계에 대한 각 계급 도수의 비율 이므로
상대도수 = 주목하고 있는 계급의 도수 / 도수의 합계
로 계산한다. 40 이상 50 미만의 경우
상대 도수는 = 4 / 40 = 0.100
(3) 주목하는 도수가 전체의 몇 %에 해당하는가 보다는 주목하는 계급 이하(이상)가 전체의 몇 % 이하(이상)가 되는지
알고 싶을 때도 있다. 그럴 때는 누적상대도수를 보자
예를 들면 10 이상~60 미만인 누적도수는
0.025+0.075+0.125+0.100+0.175 = 0.500으로 60점 미만인 학생이 전체의 50%를 차지하고 있음을 알 수 있다.
다음 글에서 또 만나요~!
'재테크' 카테고리의 다른 글
제곱근의 계산 : 데이터 분석을 위한 기본수학 - 7 (0) | 2022.07.25 |
---|---|
제곱근 : 데이터분석을 위한 기본수학-6 (0) | 2022.07.24 |
데이터 정리를 위한 기본수학 -2 (0) | 2022.07.18 |
데이터 정리를 위한 기본수학 -1 (0) | 2022.07.17 |
채권투자를 해야하는 이유 (0) | 2022.07.15 |