오늘 다룰 산포도는 변수들이 얼마나 퍼져있는지를 살펴보는 데 쓰는 자료일세. 산포도가 왜 중요할까? 그러려면 과거 <매드매스>에서 다뤘던 대푯값 이야기를 다시 떠올려야한다네. 우리는 이미 대푯값 편에서 어떤 집단의 특징을 파악하는데 사용하는 대푯값들을 살펴봤었는데 기억나는가? 가장 대표적인 게 평균일세. 평균뿐만 아니라 최댓값이라던가, 최솟값, 최빈값, 중앙값 등을 살펴보았었네. (혹시나 기억이 나지 않은 벗들은 이곳에서 한 번 다시 보고 오게나!)
하지만 대푯값만 가지고서는 그 집단의 특징을 정확하게 파악하기에는 무리가 있네. 동일한 평균이라고 할지라도 그 분포가 다를 수 있기 때문이지. 산포도는 이러한 분포를 수치적으로 파악하는 데 도움을 주는 녀석들이라네.
1. 분산
가장 대표적인 산포도, 분산. 분산은 해당 수치들이 평균으로부터 얼마나 떨어져 있는지 살펴볼 수 있는 수치일세. 얼마나 떨어져 있는지는 편차를 통해 계산하지. 편차는 관측값에서 평균을 빼면 나오는 수치일세. 그리고 이 편차들을 제곱해서 평균을 구하면 분산이 나오지. 분산에 대해서는 꼭꼬와 친구들의 성적을 예를 들어서 조금 더 자세히 설명해보겠네.
꼭꼬 선생님 반에 5명의 학생이 공부를 하고 있다고 해보겠네. 이 친구들의 기말고사 수학 점수는 A = {100, 90, 80, 70, 60} 일세. 우리 학생들의 수학 점수 평균은 몇 점이겠는가? 계산해보면 (100+90+80+70+60) / 5 = 80점이구만.
그렇다면 이들의 편차는 무엇일까? 편차는 관측값에서 평균을 빼면 나오는 수치라고 했지? 여기서 관측값은 5명 학생의 수학 점수이고, 평균은 80점이니 이걸 한 번 빼보겠네. A’에 편차들을 넣어봅시다. A’ = {100-80, 90-80, 80-80, 70-80, 60-80} = {20, 10, 0, -10, -20}이 나오는구만.
아! 이렇게 계산해보니 분산을 구하는 방식이 어느 정도 이해가 되는구만. 평균이라는 녀석이 관측값의 중간에 위치하니까 모든 편차의 합은 0이 나올 수밖에 없다는 것이지. 편차들을 평균을 내려고 해도 다 합치면 0이 되어버리니 구할 수가 없는 것 아니겠는가? 그래서 편차들을 제곱하고 그것들의 평균을 냈고 그걸 분산이라고 부른 거라네. 이해가 되셨는가?
2. 표준편차
표준편차는 분산에 루트를 씌운 것이라네. 왜 루트를 씌우는지 약간 감이 오지 않는가? 편차들의 평균을 그냥 구하고 싶었지만, 편차들은 다 더하면 0이 되니까, 우리는 분산을 구하는 과정에서 마이너스 부호를 없애기 위해 제곱을 취했었지. 원래 우리가 구하려 했던 수치를 확인하기 위해 분산에 루트를 씌우는 거라네. 다시 축소하는 거지.
자 그래프를 보면서 설명해보겠네. 오른쪽 상단에 μ(뮤)와 σ(시그마)가 보이는구만. 통계학에서 μ는 (모)평균을 뜻하고 σ는 (모)표준편차를 뜻하네. σ를 제곱한 녀석은 그렇다면 무엇이겠는가? 아까 우리가 무엇에다가 루트를 씌어 표준편차를 만들었지? 맞네! σ제곱은 (모)분산일세.
파란색 라인과 빨간색 라인, 그리고 황토색 라인을 보게나. μ값이 모두 0으로 동일하다네. 즉 평균이 0이라는 뜻이지. 세 집단 모두 평균은 동일하지만, 관측치들의 분포는 다르다는 걸 알 수 있네. 파란색 라인에 속하는 집단은 분산이 0.2로 가장 작네. 즉 평균 주변으로 관측값들이 모여있다는 뜻일세. 그래서 정규분포 그래프도 평균 0근처에 가장 볼록하게 그려진 것이지. 반면 분산이 5로 큰 황토색 라인은 펑퍼짐하게 그려지는 거라네. 이해가 되었는가?
오늘 다뤄본 분산과 표준편차뿐 아니라 산포도를 파악하는 녀석들은 더 남아있네. 그건 다음번 <매드매스>에서 다뤄보도록 하지. 좀 더 자세하게 스포를 하자면 다음 주엔 범위라는 녀석과 사분위수 범위를 살펴볼 거네. 그리고 박스플롯도 한 번 다뤄보도록 하지. 혹시나 궁금한 사항이 있으면 아래 댓글로 달아주게나. 그러면 다음 주까지 안뇽~!🐔
고등학교 수학 시간이 생각나는 글이네용ㅋㅋ 이번 주도 양질의 글 감사합니다!