산포도
통계학에서 산포도(散布度, 변동성, 산란, 퍼짐이라고도 함)는 분포가 늘어나거나 압축되는 정도를 말한다.[^1] 통계적 산포도의 대표적인 측도로는 분산, 표준편차, 사분위수 범위 등이 있다. 예를 들어, 데이터 집합의 분산이 크면 데이터가 넓게 흩어져 있는 것이다. 반면에 분산이 작으면 데이터 집합의 데이터가 밀집되어 있는 것이다.
산포도는 위치 또는 중심경향과 대비되며, 이 둘은 함께 분포에서 가장 많이 사용되는 속성이다.
통계적 산포도의 측도
통계적 산포도의 측도는 모든 데이터가 동일할 때 0이 되고, 데이터가 다양해질수록 증가하는 음이 아닌 실수이다.
대부분의 산포도 측도는 측정되는 양과 동일한 단위를 가진다. 즉, 측정값이 미터나 초 단위라면 산포도 측도도 마찬가지이다. 산포도 측도의 예는 다음과 같다:
- 표준편차
- 사분위수 범위(IQR)
- 범위
- 평균절대차(지니 평균절대차라고도 함)
- 중위절대편차(MAD)
- 평균절대편차(또는 간단히 평균편차)
- 거리 표준편차 이들은 척도 모수의 추정량으로서 (척도 인수와 함께) 자주 사용되며, 이 경우 척도 추정량이라 불린다. 강건한 척도 측도는 소수의 이상치에 영향을 받지 않는 것으로, IQR과 MAD가 이에 해당한다.
위의 모든 통계적 산포도 측도는 위치 불변이고 척도에 대해 선형이라는 유용한 성질을 가진다. 이는 확률변수 X의 산포도가 S_X일 때, 실수 a와 b에 대한 선형 변환 Y=aX+b의 산포도는 S_Y=|a|S_X이어야 함을 의미한다. 여기서 |a|는 a의 절댓값, 즉 앞에 오는 음의 부호 -를 무시한 값이다.
다른 산포도 측도는 무차원이다. 즉, 변수 자체에 단위가 있더라도 이 측도에는 단위가 없다. 이에 해당하는 것은 다음과 같다:
- 변동계수
- 사분위수 산포계수
- 상대평균차, 지니 계수의 두 배와 같음
- 엔트로피: 이산변수의 엔트로피는 위치 불변이고 척도 독립적이므로 위의 의미에서 산포도 측도는 아니지만, 연속변수의 엔트로피는 위치 불변이고 척도에 대해 가법적이다: H(z)가 연속변수 z의 엔트로피이고 z=ax+b이면, H(z)=H(x)+\log(a)이다.
그 외의 산포도 측도도 있다:
- 분산(표준편차의 제곱) – 위치 불변이지만 척도에 대해 선형이 아님.
- 분산-평균 비 – 주로 도수 데이터에 사용되며, 이 경우 산포계수라는 용어가 쓰이고, 도수 데이터 자체가 무차원이므로 이 비율이 무차원인 경우에 한함.
일부 산포도 측도는 특수한 목적을 가진다. 앨런 분산은 잡음이 수렴을 방해하는 응용에 사용될 수 있다.[^2] 하다마르 분산은 선형 주파수 드리프트 민감도를 상쇄하는 데 사용될 수 있다.[^3]
범주형 변수의 경우, 산포도를 단일 수치로 측정하는 것은 흔하지 않으며, 질적 변동을 참조할 수 있다. 이를 수행하는 측도 중 하나가 이산 엔트로피이다.
출처
물리학에서 이러한 변동성은 무작위 측정 오차에서 비롯될 수 있다: 기기 측정은 흔히 완벽하게 정밀하지, 즉 재현 가능하지 않으며, 측정 결과를 해석하고 보고하는 과정에서 추가적인 평가자 간 변동성이 존재한다. 측정 대상인 양이 안정적이며, 측정 간의 변동은 관측 오차에 기인한다고 가정할 수 있다. 다수의 입자로 이루어진 계는 온도, 에너지, 밀도와 같은 비교적 소수의 거시적 양의 평균값으로 특성화된다. 표준편차는 요동 이론에서 중요한 척도이며, 이 이론은 하늘이 파란 이유를 포함한 많은 물리적 현상을 설명한다.[^4]
생물학에서 측정 대상인 양은 좀처럼 불변하거나 안정적이지 않으며, 관찰된 변동은 현상에 내재적인 것일 수 있다: 이는 개체 간 변동성, 즉 한 집단의 서로 다른 구성원들이 서로 차이를 보이는 것에 기인할 수 있다. 또한 *** 개체 내 변동성***, 즉 동일한 피험자가 서로 다른 시점이나 서로 다른 조건에서 실시한 검사에서 차이를 보이는 것에 기인할 수도 있다. 이러한 유형의 변동성은 제조 제품의 영역에서도 관찰된다; 그곳에서조차 꼼꼼한 과학자는 변동을 발견한다.
산포의 부분 순서
평균 보존 확산(MPS)은 하나의 확률 분포 A에서 다른 확률 분포 B로의 변환으로, B는 평균(기댓값)을 변화시키지 않으면서 A의 확률 밀도 함수의 하나 이상의 부분을 펼쳐서 형성된다.[^5] 평균 보존 확산의 개념은 확률 분포들의 산포에 따른 부분 순서를 제공한다: 두 확률 분포 중 하나가 다른 것보다 더 큰 산포를 가진 것으로 순위가 매겨질 수 있으며, 또는 어느 쪽도 더 큰 산포를 가진 것으로 순위가 매겨지지 않을 수도 있다.
같이 보기
*평균 *원형 산포 *분산 행렬 *확률 밀도 함수 *질적 변동 *측정 불확도 *정밀도 (통계학) *로버스트 척도 *요약 통계량
참고 문헌
[^1]: NIST/SEMATECH 통계적 방법 e-핸드북. 1.3.6.4. 위치 및 척도 모수. 미국 상무부
[^2]: 앨런 분산 -- David W. Allan의 개요
[^3]: 아다마르 분산
[^4]: McQuarrie, Donald A.. 통계역학. Harper & Row
[^5]: Rothschild, Michael. 증가하는 위험 I: 정의
관련 인사이트

디지털 트윈, 당신 공장엔 이미 있다 — 엑셀과 MES 사이 어딘가에
디지털 트윈은 10억짜리 3D 시뮬레이션이 아니다. 지금 쓰고 있는 엑셀에 좋은 질문 하나를 더하는 것 — 두 전문가가 중소 제조기업이 이미 가진 데이터로 예측하는 공장을 만드는 현실적 로드맵을 제시한다.

공장의 뇌는 어떻게 생겼는가 — 제조운영 AI 아키텍처 해부
지식관리, 업무자동화, 의사결정지원 — 따로 보면 다 있던 것들입니다. 제조 AI의 진짜 차이는 이 셋이 순환하면서 '우리 공장만의 지능'을 만든다는 데 있습니다.

그 30분을 18년 동안 매일 반복했습니다 — 품질팀장이 본 AI Agent
18년차 품질팀장이 매일 아침 30분씩 반복하던 데이터 분석을 AI Agent가 3분 만에 해냈습니다. 챗봇과는 완전히 다른 물건 — 직접 시스템에 접근해서 데이터를 꺼내고 분석하는 AI의 현장 도입기.