통계 자료에는 일반적으로 수 많은 변량으로 구성되어 있어 자료를 있는 그대로 두고 분석하기 어렵다. 따라서 자료의 중심적 경향을 하나의 수로 표현한 대푯값을 정하여 자료를 분석할 필요가 있다. 이번 시간에는 대푯값의 개념을 학습해 보기로 하자.
개요
학습목표
- 대푯값의 정의를 이해하고, 평균, 중간값, 최빈값에 대해 정확히 설명 할 수 있다.
내용을 정리할 수 있는 학습지를 하단 링크로 첨부하니 다운받아 학습에 참고하길 바란다.
대푯값 용어 정의와 예시
대푯값과 관련된 용어 정의
- 변량 : 조사의 내용이나 결과를 수량으로 나타낸 것
- 대푯값 : 자료의 중심적인 경향이나 특징을 대표적으로 나타낸 값
- 대푯값의 종류 : 평균, 중앙값, 최빈값
대푯값은 쉽게 설명하면 자료를 대표하는 값이다. 이미 우리는 평균에 대해 학습하였으므로 먼저 이를 복습하고 중앙값과 최빈값에 대해 알아보기로 하자.
대푯값의 종류와 예시
평균 정의와 예시
- 평균 : 변량의 총합을 변량의 개수로 나눈 값
- $(평균)=\dfrac{(변량의 총합)}{(변량의 개수)}$
[예제] 다음은 학생 $A$의 중간고사 성적이다. 4과목 평균을 구하여라.
- 국어 : 85 , 영어 : 100 , 수학 : 68 , 과학 : 97 , 사회 : 95
- [풀이] $(평균)=\dfrac{(변량의 총합)}{(변량의 개수)}=\dfrac{85+100+68+97+95}{5}=89$(점)
중앙값 정의와 예시
정의
- 중앙값 : 자료를 변량을 작은 값부터 크기순으로 나열 하였을 때 한 가운데 있는 값
중앙값 사용 예시
모든 자료의 특징을 평균으로만 나타낼 수 있다면 다른 대푯값은 필요하지 않을 것이다. 평균으로 자료의 특징을 설명 하기 어려운 상황에 대해 먼저 살펴보자.
[예시] 평균이 31점으로 같은 두 학급의 학생 수학 성적이 아래와 같을 때 평균에 맞춰 수업을 하면 안되는 이유에 대해 생각해 보자.
- 1반 : 100 , 19 , 13, 12, 11 평균 : 31점
- 2반 : 35 , 34 , 31 , 28 , 27 평균 : 31점
1반은 대부분 10점대 이므로 평균에 맞춰 수업하면 안되고, 10점대 학생들에 맞춰 수업해야 한다. 반면에 2반은 모든 학생의 성적이 고르기 때문에 평균에 맞춰 수업하면 적절하다. 이를 통해 다음과 같은 결론을 내릴 수 있다.
평균 대신 중앙값을 사용하는 경우
- 자료의 변량 중에서 극단적인 값(매우 크거나 작은 값)이 있는 경우에 평균보다 중앙값이 자료의 중심적인 경향을 더 잘 나타낸다.
자료의 개수에 따른 중앙값 계산
중앙값의 정의는 단순하지만 계산은 정의 만큼 단순하지 않다.
[예제] 다음의 변량에서 중앙값을 계산하여라.
- 변량 : 2 , 3 , 5 $\rightarrow$ 중앙값 : 3
- 변량 : 2 , 3 , 5 , 6 , 8 $\rightarrow$ 중앙값 : 5
- 변량 : 2 , 3 , 5 , 6 $\rightarrow$ 중앙값 : 4
정의에 따라서 자료의 개수가 홀수개 이면 크기 순서로 나열 했을 때 가운데 위치한 값을 찾으면 그 값이 중앙 값이 된다. 하지만 자료의 개수가 짝수개인 세 번째 경우는 가운데 두 값이 중앙에 남기 때문에 어느 한 값을 선택할 수 없다. 이때는 중앙값의 정의에 따라 두 값에 대한 중앙값 즉 두 값의 평균을 구하면 된다.
이를 정리하면 다음과 같다.
- 자료의 개수가 홀수 : 크기 순으로 나열 했을 때 한 가운데 있는 값
- 자료의 개수가 짝수 : 크기 순으로 나열 했을 때 한 가운데 있는 두 값의 평균
최빈값
정의
- 최빈값 : 도수가 가장 큰 값이 존재할 때 그 값을 모두 최빈값이라 한다.
최빈값 사용 예시
평균과 중앙값으로 자료의 특징을 잘 설명하지 못하는 상황에 대해 먼저 살펴 보기로 하자.
[예시] 신발 가게의 판매된 신발 사이즈에 대한 평균과 중앙값을 나타낸 것이다. 새 신발을 대량으로 주문할 때 고려 할 수 있는 값으로 평균과 중앙값이 적절한지 판단하여라.
- 판매 사이즈 : 220, 225, 230, 230, 235, 235, 235, 240, 255, 260, 265, 270, 270, 270, 280
- 평균 : 248, 중앙값 : 240
평균에 따라 245, 250 사이즈를 대량으로 주문하거나, 중앙값인 240 사이즈를 대량으로 주문하는 것은 적절하지 않다. 그렇다면 어느 사이즈를 대량으로 주문하는 것이 적절할까? 너무나 당연하게 판매량이 많은 235, 270 사이즈를 대량으로 주문하는 것이 합리적이다.
왜 위의 자료를 분석하는데 평균과 중앙값을 사용하면 안되는 것일까? 그 이유는 평균과 중간값은 수치형 자료를 해석하는데 주로 사용되고 신발 사이즈와 같은 범주형 자료에는 거의 사용하지 않기 때문이다. 수치형 자료와 범주형 자료에 대해 간단히 알아보기로 하자.
수치형 자료와 범주형 자료 (참조: 나무위키 대푯값, 최빈값)
- 수치형 자료(양적자료) : 관측된 값이 수치로 표현되는 자료
키, 몸무게, 점수, 개수 와 관련된 자료
대푯값으로 평균, 중앙값을 주로 사용 - 범주형 자료(질적자료) : 관측된 자료가 몇 개의 범주나 항목의 형태로 나타나는 자료
수치의 우열이 없는 자료이므로 평균과 중간값이 무의미하다.
혈액형, 성별, 선호도, 평점(A, B, C), 신발 사이즈
대푯값으로 최빈값을 주로 사용
최빈값을 사용하는 경우
- 범주형 자료로 주어진 데이터를 분석하는 경우에 사용
수학에서 범주형 자료를 분석하는 일이 드물기 때문에 앞으로 배울 내용과 연계성이 적다.
최빈값 계산
최빈값의 정의는 간단 하지만, 주의해야 할 사항이 몇 가지 있다.
[예제] 다음 자료에서 최빈값을 구하여라.
- 자료1 : 1, 1, 2, 3, 5 $\rightarrow$ 최빈값 : 1
- 자료2 : 1, 1, 2, 3, 3 $\rightarrow$ 최빈값 : 1, 3
- 자료3 : 1, 2, 3, 4, 5 $\rightarrow$ 최빈값 : 없음
- 자료4 : 1, 1, 3, 3, 5, 5 $\rightarrow$ 최빈값 : 없음
정의에 따르면 도수가 가장 큰 값이 존재 할 때 최빈값을 논할 수 있다. 이를 적용하면, 자료3 처럼 도수가 모두 1인 경우 가장 큰 도수가 존재하지 않고, 최빈값은 없다. 동일한 이유로 모든 도수가 2인 자료4 또한 최빈값이 존재하지 않는다. 반면 자료2의 경우 도수가 가장 큰 값이 존재하고 그 값이 1, 3 이므로 두 개의 최빈값을 갖는다.
정리
자료의 중심적인 경향이나 특징을 나타내는 대푯값에는 다음 세 가지가 있다.
- 평균 : $(평균)=\dfrac{(변량의 총합)}{(변량의 개수)}$
- 중앙값 : 자료를 변량을 작은 값부터 크기순으로 나열 하였을 때 한 가운데 있는 값
- 최빈값 : 도수가 가장 큰 값이 존재할 때 그 값을 모두 최빈값이라 한다.