빈도
통계학에서 빈도 또는 절대 빈도는 사건 i가 실험이나 연구에서 관측되거나 기록된 횟수 n_i를 의미한다.[^1] 상대 빈도는 절대 빈도를 표본 크기로 나눈 비율이다. 이러한 빈도는 흔히 그래프나 표 형태로 나타낸다.
유형
누적 빈도는 순서가 매겨진 사건 목록에서 특정 지점 이하에 있는 모든 사건의 절대 빈도를 합산한 값이다.[^1]
사건의 상대 빈도(또는 경험적 확률)는 절대 빈도를 전체 사건 수로 나누어 정규화한 값이다:
f_i = \frac{n_i}{N} = \frac{n_i}{\sum_j n_j}.
모든 사건 i에 대한 f_i의 값을 도표로 나타내면 빈도 분포를 만들 수 있다.
특정 i에 대해 n_i = 0인 경우, 의사 빈도(pseudocount)를 추가할 수 있다.
도수 분포의 표현
도수 분포는 데이터를 상호 배타적인 계급으로 나누어 요약한 것과 각 계급에 속하는 발생 횟수를 보여준다. 이는 정리되지 않은 데이터를 보여주는 방법으로, 특히 선거 결과, 특정 지역 주민의 소득, 일정 기간 내 제품 매출, 졸업생의 학자금 대출 금액 등의 결과를 나타내는 데 사용된다. 도수 분포와 함께 사용할 수 있는 그래프로는 히스토그램, 꺾은선 그래프, 막대 그래프, 원 그래프 등이 있다. 도수 분포는 질적 데이터와 양적 데이터 모두에 사용된다.
작성 방법
- 계급의 수를 결정한다. 계급이 너무 많거나 너무 적으면 데이터 세트의 기본적인 형태를 파악하기 어려울 수 있으며, 그러한 도수 분포를 해석하기도 어렵다. 이상적인 계급 수는 다음 공식으로 결정하거나 추정할 수 있다: \text{number of classes} = C = 1 + 3.3 \log n (상용로그 기준), 또는 제곱근 선택 공식 C = \sqrt {n}을 사용할 수 있으며, 여기서 n은 데이터의 총 관측값 수이다. (후자의 공식은 인구 통계와 같은 대규모 데이터 세트에는 지나치게 큰 값을 산출한다.) 그러나 이러한 공식은 엄격한 규칙이 아니며, 공식으로 결정된 계급 수가 다루는 데이터에 항상 정확히 적합하지 않을 수 있다.
- 최솟값과 최댓값을 찾아 데이터의 범위(범위 = 최댓값 – 최솟값)를 계산한다. 범위는 계급 구간 또는 계급 폭을 결정하는 데 사용된다.
- 계급의 폭을 결정하며, 이를 h로 표기하고 h = \frac{\text{range}}{\text{number of classes}}로 구한다 (모든 계급의 계급 구간이 동일하다고 가정).
일반적으로 계급 구간 또는 계급 폭은 모든 계급에서 동일하다. 모든 계급을 합하면 데이터의 최솟값(최소)에서 최댓값(최대)까지의 거리를 최소한 포함해야 한다. 도수 분포에서는 동일한 계급 구간이 선호되지만, 계급 간 관측값의 적절한 분포를 만들고 비어 있거나 거의 비어 있는 계급이 많아지는 것을 방지하기 위해 특정 상황에서는 불균등 계급 구간(예: 로그 구간)이 필요할 수 있다.[^4]
- 개별 계급 한계를 결정하고 첫 번째 계급의 적절한 시작점을 선택한다. 시작점은 임의적이며, 최솟값보다 작거나 같을 수 있다. 보통 첫 번째 계급의 중간값(첫 번째 계급의 상한과 하한의 평균)이 적절히 배치되도록 최솟값 이전에서 시작한다.
- 관측값을 취하여 해당하는 계급에 수직 막대(|)를 표시한다. 마지막 관측값까지 연속적으로 집계한다.
- 필요에 따라 도수, 상대 도수, 누적 도수 등을 구한다.
다음은 도수를 표현하는 데 일반적으로 사용되는 방법들이다:[^5]
히스토그램
히스토그램은 표로 정리된 도수를 인접한 직사각형 또는 (일부 상황에서는) 정사각형으로 나타낸 것으로, 이산 구간(계급) 위에 세워지며 면적이 해당 구간 내 관측값의 도수에 비례한다. 직사각형의 높이는 구간의 도수 밀도, 즉 도수를 구간의 폭으로 나눈 값과 같다. 히스토그램의 전체 면적은 데이터의 수와 같다. 히스토그램은 상대 도수를 표시하도록 정규화할 수도 있다. 이 경우 여러 범주 각각에 해당하는 사례의 비율을 보여주며, 전체 면적은 1이 된다. 범주는 보통 변수의 연속적이고 겹치지 않는 구간으로 지정된다. 범주(구간)는 인접해야 하며, 흔히 같은 크기로 선택된다.[^6] 히스토그램의 직사각형은 원래 변수가 연속적임을 나타내기 위해 서로 맞닿도록 그려진다.[^7]
막대 그래프
막대 차트 또는 막대 그래프는 나타내는 값에 비례하는 길이의 직사각형 막대로 구성된 차트이다. 막대는 수직 또는 수평으로 그릴 수 있다. 수직 막대 차트는 때때로 세로 막대 차트라고도 한다.
도수 분포표
도수 분포표는 표본에서 하나 이상의 변수가 취하는 값을 정리한 것이다. 표의 각 항목에는 특정 그룹 또는 구간 내 값의 발생 빈도 또는 횟수가 포함되며, 이를 통해 표본 내 값의 분포를 요약한다.
다음은 단변량(=단일 변수) 도수 분포표의 예시이다. 설문 조사 질문에 대한 각 응답의 도수가 표시되어 있다. {| class="wikitable sortable" !순위 !동의 정도 !인원수 |- |1 |매우 동의함 |22 |- |2 |다소 동의함 |30 |- |3 |잘 모르겠음 |20 |- |4 |다소 동의하지 않음 |15 |- |5 |매우 동의하지 않음 |15 |- |} 다른 도표 방식은 각 계급이 값의 범위를 포함하도록 값을 계급으로 묶는 것이다. 예를 들어, 학급 학생들의 키를 다음과 같은 도수 분포표로 정리할 수 있다. {| class="wikitable sortable" !키 범위 !학생 수 !누적 인원수 |- |5.0피트 미만 |25 |25 |- |5.0–5.5피트 |35 |60 |- |5.5–6.0피트 |20 |80 |- |6.0–6.5피트 |20 |100 |- |}
결합 도수 분포
이변량 결합 도수 분포는 흔히 (이원) 분할표로 제시된다: {| class="wikitable sortable" |+주변 도수가 포함된 이원 분할표 ! !춤 !스포츠 !TV !합계 |- !남성 |2 |10 |8 |20 |- !여성 |16 |6 |8 |30 |- !합계 |18 |16 |16 |50 |}
합계 행과 합계 열은 주변 도수 또는 주변 분포를 나타내며, 표의 본문은 결합 도수를 나타낸다.[^8]
해석
확률의 빈도 해석에서는 출처가 에르고딕(ergodic)하다고 가정한다. 즉, 일련의 시행 횟수가 한없이 증가함에 따라, 주어진 사건이 발생하는 실험의 비율이 극한 상대 빈도라고 알려진 고정된 값에 수렴한다는 것이다.[^2][^3]
이 해석은 흔히 베이즈 확률과 대조된다.
*빈도주의자(frequentist)*라는 용어는 1949년 M. G. Kendall이 처음 사용하였으며, 그가 "비빈도주의자(non-frequentists)"라고 부른 베이즈주의자들과 대조하기 위한 것이었다.[^9][^10] 그는 다음과 같이 관찰하였다. 3....우리는 크게 두 가지 주요 태도를 구별할 수 있다. 하나는 확률을 '합리적 믿음의 정도' 또는 그와 유사한 개념으로 보는 것이고...두 번째는 확률을 사건 발생의 빈도, 또는 '모집단'이나 '집합체'에서의 상대적 비율로 정의하는 것이다. (p. 101) ... 12. 빈도주의자와 비빈도주의자(그렇게 부를 수 있다면) 사이의 차이는 주로 그들이 다루고자 하는 영역의 차이에 기인한다고 생각할 수 있다. (p. 104) ... 나는 그렇지 않다고 주장한다 ... 빈도주의자와 비빈도주의자 사이의 본질적인 차이는, 내 생각에, 전자는 의견의 문제와 관련된 모든 것을 피하기 위해 실재하든 가설적이든 모집단의 객관적 속성으로 확률을 정의하고자 하는 반면, 후자는 그렇지 않다는 것이다. [원문 강조]
응용
빈도로 정리된 데이터를 관리하고 연산하는 것은 원시 데이터를 다루는 것보다 훨씬 간단하다. 이러한 표에서 중앙값, 평균, 표준편차 등을 계산하는 간단한 알고리즘이 존재한다.
통계적 가설 검정은 빈도 분포 간의 차이와 유사성 평가에 기초한다. 이 평가에는 평균과 중앙값 같은 중심 경향 측도 또는 평균값, 그리고 표준편차나 분산 같은 변동성 측도 또는 통계적 산포도가 포함된다.
빈도 분포의 평균과 중앙값이 현저히 다르거나, 더 일반적으로 비대칭일 때 이를 편포(skewed)되었다고 한다. 빈도 분포의 첨도(kurtosis)는 히스토그램의 양쪽 끝에 나타나는 극단값(이상치)의 비율을 측정하는 척도이다. 분포가 정규분포보다 이상치가 더 많으면 급첨(leptokurtic)이라 하고, 이상치가 더 적으면 완첨(platykurtic)이라 한다.
문자 빈도 분포는 암호 해독을 위한 빈도 분석에도 사용되며, 서로 다른 언어에서 문자의 상대적 빈도를 비교하는 데 활용된다. 그리스어, 라틴어 등 다른 언어들도 자주 사용된다.
같이 보기
- 비주기적 빈도
- 계수 데이터
- 교차 분석표
- 누적 분포 함수
- 누적 빈도 분석
- 경험적 분포 함수
- 큰 수의 법칙
- 다중집합 중복도, 다중집합 이론에서 빈도에 해당하는 개념
- 확률 밀도 함수
- 확률 해석
- 통계적 규칙성
- 단어 빈도
참고 문헌
[^1]: cite book last1 = Kenney first1 = J. F. last2 = Keeping first2 = E. S. title = 통계 수학, 제1부 edition = 제3판 url = https://books.google.com/books?id=UdlLAAAAMAAJ loca
[^2]: von Mises, Richard (1939) ''확률, 통계, 그리고 진실'' (독일어) (영어 번역, 1981: Dover Publications; 개정 제2판. ISBN 0486242145 ) (p.14)
[^3]: ''빈도 이론'' 제5장; Donald Gilles, ''확률의 철학적 이론'' (2000), Psychology Press. ISBN 9780415182751 , p. 88.
[^4]: Manikandan, S. 빈도 분포. (2011년 1월 1일)
[^5]: Carlson, K. and Winquist, J. (2014) ''통계학 입문''. SAGE Publications, Inc. 제1장: 통계학 및 빈도 분포 입문
[^6]: Howitt, D. and Cramer, D. (2008) ''심리학에서의 통계''. Prentice Hall
[^7]: Charles Stangor (2011) "행동과학을 위한 연구 방법론". Wadsworth, Cengage Learning. ISBN 9780840031976 .
[^8]: Stat Trek, 통계 및 확률 용어집, ''s.v.'' [http://stattrek.com/statistics/dictionary.aspx?definition=Joint_frequency 결합 빈도]
[^9]: [http://www.leidenuniv.nl/fsw/verduin/stathist/1stword.htm 확률 및 통계 용어의 최초 사용 기록]
[^10]: Kendall, Maurice George. 확률 이론의 조화에 관하여. Biometrika Trust
관련 인사이트

디지털 트윈, 당신 공장엔 이미 있다 — 엑셀과 MES 사이 어딘가에
디지털 트윈은 10억짜리 3D 시뮬레이션이 아니다. 지금 쓰고 있는 엑셀에 좋은 질문 하나를 더하는 것 — 두 전문가가 중소 제조기업이 이미 가진 데이터로 예측하는 공장을 만드는 현실적 로드맵을 제시한다.

공장의 뇌는 어떻게 생겼는가 — 제조운영 AI 아키텍처 해부
지식관리, 업무자동화, 의사결정지원 — 따로 보면 다 있던 것들입니다. 제조 AI의 진짜 차이는 이 셋이 순환하면서 '우리 공장만의 지능'을 만든다는 데 있습니다.

그 30분을 18년 동안 매일 반복했습니다 — 품질팀장이 본 AI Agent
18년차 품질팀장이 매일 아침 30분씩 반복하던 데이터 분석을 AI Agent가 3분 만에 해냈습니다. 챗봇과는 완전히 다른 물건 — 직접 시스템에 접근해서 데이터를 꺼내고 분석하는 AI의 현장 도입기.