표본 추출

최종 수정 2026.03.25

표본 추출 과정의 시각적 표현

통계학, 품질 보증 및 조사 방법론에서 표본 추출(sampling)은 전체 모집단의 특성을 추정하기 위해 통계적 모집단 내에서 개체의 부분 집합을 선택하는 것이다. 통계적 표본(또는 줄여서 표본)이라 불리는 이 부분 집합은 전체 모집단을 반영하기 위한 것이며, 통계학자들은 모집단을 대표하는 표본을 수집하고자 한다. 표본 추출은 전체 모집단의 데이터를 기록하는 것에 비해 비용이 낮고 데이터 수집이 빠르며(많은 경우 전체 모집단을 수집하는 것은 불가능한데, 예를 들어 우주의 모든 별의 크기를 파악하는 것이 그러하다), 따라서 전체 모집단을 측정하는 것이 불가능한 경우에도 통찰을 제공할 수 있다.

각 관측은 독립적인 객체나 개체의 하나 이상의 속성(무게, 위치, 색상 또는 질량 등)을 측정한다. 조사 표본 추출에서는 특히 층화 표본 추출의 경우 표본 설계에 맞게 데이터를 조정하기 위해 가중치를 적용할 수 있다.[^7] 실무를 안내하기 위해 확률론과 통계 이론의 결과가 활용된다. 비즈니스 및 의학 연구에서 표본 추출은 모집단에 대한 정보를 수집하는 데 널리 사용된다.[^8] 합격 판정 표본 추출은 생산 로트의 자재가 규정된 사양을 충족하는지 판단하는 데 사용된다.

역사

제비뽑기를 이용한 무작위 표본 추출은 오래된 개념으로, 성경에서 여러 차례 언급되어 있다. 1786년, 피에르 시몽 라플라스는 비율 추정량과 함께 표본을 사용하여 프랑스의 인구를 추정하였다. 그는 또한 오차의 확률적 추정값을 계산하였다. 이러한 추정값은 현대적인 신뢰 구간으로 표현되지 않았으나, 확률 1000/1001로 표본 오차의 특정 상한을 달성하는 데 필요한 표본 크기로 표현되었다. 그의 추정은 균등 사전 확률을 적용한 베이즈 정리를 사용하였으며, 표본이 무작위라고 가정하였다. 알렉산드르 이바노비치 추프로프는 1870년대에 러시아 제국에 표본 조사를 도입하였다.[^9]

미국에서는 1936년 리터러리 다이제스트의 대통령 선거 공화당 승리 예측이 심각한 편향 https://www.wsj.com/articles/SB115974322285279370 으로 인해 크게 빗나갔다. 200만 명 이상의 사람들이 잡지 구독자 목록과 전화번호부를 통해 확보된 이름으로 해당 조사에 응답하였다. 이러한 목록이 공화당 지지자 쪽으로 심하게 편향되어 있다는 점이 인식되지 못했으며, 그 결과 매우 큰 규모의 표본이었음에도 심각한 결함이 있었다.^10

싱가포르의 선거에서는 2015년 선거 이후 이 관행을 채택하였으며, 이는 표본 개표라고도 알려져 있다. 싱가포르 선거관리위원회인 선거부(ELD)에 따르면, 표본 개표는 추측과 잘못된 정보를 줄이는 데 도움이 되며, 선거 관리자가 해당 선거구의 선거 결과를 검증하는 데에도 도움이 된다. 보고된 표본 개표 결과는 95% 신뢰 구간에서 4%의 오차 범위로 상당히 정확한 예비 결과를 산출하지만, 선거부는 표본 개표가 공식 결과와는 별개이며, 개표가 완료된 후 선거 관리관만이 공식 결과를 선포할 수 있다고 대중에게 상기시켰다.[^12][^13]

모집단 정의

성공적인 통계 실무는 명확한 문제 정의에 기반한다. 표본추출에서 이는 표본이 추출되는 "모집단"을 정의하는 것을 포함한다. 모집단은 이해하고자 하는 특성을 가진 모든 사람이나 항목을 포함하는 것으로 정의할 수 있다. 모집단의 모든 사람이나 모든 것으로부터 정보를 수집할 충분한 시간이나 비용이 있는 경우는 매우 드물기 때문에, 목표는 해당 모집단의 대표 표본(또는 부분집합)을 찾는 것이 된다.

때로는 모집단을 정의하는 것이 명확한 경우도 있다. 예를 들어, 제조업체가 생산된 자재 배치의 품질이 고객에게 출하할 만큼 충분히 높은지, 아니면 품질 불량으로 폐기하거나 재작업해야 하는지를 결정해야 하는 경우가 있다. 이 경우 해당 배치가 모집단이 된다.

관심 대상인 모집단이 물리적 대상으로 구성되는 경우가 많지만, 때로는 시간, 공간, 또는 이러한 차원의 조합에 걸쳐 표본을 추출해야 할 필요가 있다. 예를 들어, 슈퍼마켓 인력 배치에 대한 조사는 다양한 시간대의 계산대 대기 줄 길이를 조사할 수 있고, 멸종 위기 펭귄에 대한 연구는 시간 경과에 따른 다양한 사냥터 이용 현황을 이해하는 것을 목표로 할 수 있다. 시간 차원의 경우, 초점은 기간이나 개별 시점에 맞추어질 수 있다.

다른 경우에는, 조사 대상인 '모집단'이 훨씬 덜 실체적일 수도 있다. 예를 들어, Joseph Jagger는 몬테카를로의 한 카지노에서 룰렛 휠의 작동 양상을 연구하여 편향된 휠을 식별하는 데 활용하였다. 이 경우, Jagger가 조사하고자 한 '모집단'은 휠의 전반적인 작동 양상(즉, 무한히 많은 시행에 걸친 결과의 확률 분포)이었으며, 그의 '표본'은 해당 휠에서 관찰된 결과들로 구성되었다. 구리의 전기 전도도와 같은 재료의 물성을 반복 측정할 때에도 유사한 고려 사항이 발생한다.

이러한 상황은 관찰된 모집단이 그 결과물인 원인 체계에 대한 지식을 추구할 때 자주 발생한다. 이러한 경우, 표본추출 이론은 관찰된 모집단을 더 큰 '초모집단'의 표본으로 취급할 수 있다. 예를 들어, 연구자가 100명의 환자로 구성된 시험 집단에서 새로운 '금연' 프로그램의 성공률을 연구하여, 해당 프로그램이 전국적으로 시행될 경우의 효과를 예측하고자 할 수 있다. 여기서 초모집단은 "이 치료에 접근할 수 있는 전국의 모든 사람"으로, 프로그램이 아직 모든 사람에게 제공되지 않았으므로 아직 존재하지 않는 집단이다.

표본이 추출되는 모집단은 정보를 얻고자 하는 모집단과 동일하지 않을 수 있다. 프레임 문제 등으로 인해(아래 참조) 이 두 집단 사이에 크지만 완전하지는 않은 중복이 있는 경우가 많다. 때로는 이들이 완전히 분리될 수도 있다 – 예를 들어, 인간 건강에 대한 더 나은 이해를 얻기 위해 쥐를 연구하거나, 2009년에 태어난 사람들에 대한 예측을 하기 위해 2008년에 태어난 사람들의 기록을 연구할 수 있다.

표본추출 모집단과 관심 모집단을 명확히 하는 데 투자하는 시간은 대체로 가치가 있는데, 이는 이 단계에서 그렇지 않았다면 간과되었을 많은 문제, 모호성, 질문을 제기하기 때문이다.

표본 프레임

가장 단순한 경우, 예를 들어 생산된 자재 배치에서 표본을 추출하는 경우(로트별 합격 판정 표본추출)에는 모집단의 모든 개별 항목을 식별하고 측정하여 그중 어떤 것이든 표본에 포함시키는 것이 가장 바람직할 것이다. 그러나 보다 일반적인 경우에는 이것이 대개 가능하지도, 실용적이지도 않다. 모든 쥐의 집합에서 모든 쥐를 식별할 방법은 없다. 투표가 의무가 아닌 곳에서는 다가오는 선거에서 누가 투표할지를 (선거 전에) 미리 식별할 방법이 없다. 이러한 불명확한 모집단은 아래의 어떤 방법으로도 표본추출이 적합하지 않으며, 통계 이론을 적용할 수도 없다.

이에 대한 해결책으로, 모든 개별 요소를 식별하고 어떤 것이든 표본에 포함시킬 수 있는 속성을 가진 표본 프레임을 구한다.[^14][^15][^16] 가장 단순한 유형의 프레임은 적절한 연락처 정보가 포함된 모집단 요소의 목록(가급적 전체 모집단)이다. 예를 들어, 여론 조사에서 가능한 표본 프레임에는 선거인 명부와 전화번호부가 포함된다.

확률 표본이란 모집단의 모든 단위가 표본에 선택될 확률이 (0보다 큰) 있으며, 이 확률을 정확하게 결정할 수 있는 표본이다. 이러한 특성의 결합은 표본 단위를 선택 확률에 따라 가중치를 부여함으로써 모집단 합계의 비편향 추정치를 산출할 수 있게 해준다.

예시: 특정 거리에 사는 성인들의 총소득을 추정하고자 한다. 해당 거리의 각 가구를 방문하여 거주하는 모든 성인을 파악하고, 각 가구에서 무작위로 성인 한 명을 선택한다. (예를 들어, 각 사람에게 0과 1 사이의 균등 분포에서 생성된 난수를 배정하고, 각 가구에서 가장 높은 숫자를 가진 사람을 선택할 수 있다). 그런 다음 선택된 사람을 면접하여 소득을 파악한다.

혼자 사는 사람은 반드시 선택되므로, 그들의 소득을 단순히 총합 추정치에 더한다. 그러나 성인 두 명이 사는 가구에 거주하는 사람은 선택될 확률이 2분의 1에 불과하다. 이를 반영하기 위해, 그러한 가구에 도달했을 때 선택된 사람의 소득을 총합에 두 번 계산한다. (해당 가구에서 선택된 사람은 선택되지 않은 사람도 대표하는 것으로 대략적으로 볼 수 있다.)

위의 예시에서 모든 사람이 동일한 선택 확률을 가지는 것은 아니다. 이것이 확률 표본이 되는 것은 각 사람의 확률이 알려져 있다는 사실 때문이다. 모집단의 모든 요소가 동일한 선택 확률을 가질 때, 이를 '균등 선택 확률'(EPS) 설계라고 한다. 이러한 설계는 모든 표본 단위에 동일한 가중치가 부여되므로 '자기 가중' 설계라고도 한다.

확률 표본추출에는 단순 무작위 표본추출, 체계적 표본추출, 층화 표본추출, 크기 비례 확률 표본추출, 그리고 군집 또는 다단계 표본추출이 포함된다. 이러한 다양한 확률 표본추출 방법에는 두 가지 공통점이 있다:

  1. 모든 요소가 표본으로 추출될 알려진 0이 아닌 확률을 가지며
  2. 어떤 시점에서 무작위 선택을 포함한다.

비확률 표본추출

비확률 표본추출은 모집단의 일부 요소가 선택될 가능성이 전혀 없는 (이를 '포괄 범위 밖'/'과소 포괄'이라고도 함) 표본추출 방법이거나, 선택 확률을 정확하게 결정할 수 없는 표본추출 방법이다. 이는 관심 모집단에 대한 가정에 기반하여 요소를 선택하는 것을 포함하며, 이러한 가정이 선택 기준을 형성한다. 따라서 요소의 선택이 비무작위적이므로, 비확률 표본추출은 표본추출 오차의 추정을 허용하지 않는다. 이러한 조건은 배제 편향을 발생시켜, 표본이 모집단에 대해 제공할 수 있는 정보의 양에 한계를 부여한다. 표본과 모집단 간의 관계에 대한 정보가 제한적이어서, 표본에서 모집단으로 외삽하기가 어렵다.

예시: 특정 거리의 모든 가구를 방문하여 문을 가장 먼저 여는 사람을 면접한다. 거주자가 한 명 이상인 가구에서 이것은 비확률 표본이 되는데, 일부 사람이 문을 열 가능성이 더 높기 때문이며 (예: 대부분의 시간을 집에서 보내는 실직자가, 면접원이 방문할 때 직장에 있을 수 있는 취업한 동거인보다 문을 열 가능성이 더 높다), 이러한 확률을 계산하는 것은 실용적이지 않다.

비확률 표본추출 방법에는 편의 표본추출, 할당 표본추출, 눈덩이 표본추출, 그리고 목적적 표본추출이 포함된다. 또한, 비응답의 특성이 잘 이해되지 않을 경우, 비응답이 사실상 각 요소의 표본 추출 확률을 변경하므로, 비응답 효과가 어떤 확률 설계든 비확률 설계로 전환시킬 수 있다.

표본추출 방법

위에서 확인된 각 유형의 프레임 내에서 다양한 표본추출 방법을 개별적으로 또는 조합하여 사용할 수 있다. 이러한 설계 간의 선택에 일반적으로 영향을 미치는 요인은 다음과 같다:

  • 프레임의 성격과 품질
  • 프레임 내 단위에 대한 보조 정보의 가용성
  • 정확도 요구 사항 및 정확도 측정의 필요성
  • 표본에 대한 상세한 분석이 예상되는지 여부
  • 비용/운영상의 고려 사항

단순 무작위 표본추출

단순 무작위 표본 선택의 시각적 표현

주어진 크기의 단순 무작위 표본(SRS)에서는 표본 프레임의 모든 부분집합이 선택될 확률이 동일하다. 따라서 프레임의 각 요소는 선택될 확률이 동일하며, 프레임은 세분화되거나 분할되지 않는다. 또한 주어진 임의의 요소 은 다른 어떤 쌍과도 동일한 선택 확률을 가진다(삼중, 그 이상의 경우도 마찬가지이다). 이는 편향을 최소화하고 결과 분석을 단순화한다. 특히 표본 내 개별 결과 간의 분산은 전체 모집단의 분산에 대한 좋은 지표가 되므로, 결과의 정확도를 비교적 쉽게 추정할 수 있다.

단순 무작위 표본추출은 선택의 무작위성으로 인해 모집단의 구성을 반영하지 못하는 표본이 나올 수 있으므로 표본 오차에 취약할 수 있다. 예를 들어, 특정 국가에서 10명을 단순 무작위 표본추출하면 평균적으로 남성 5명과 여성 5명이 나오겠지만, 어떤 특정 시행에서는 한쪽 성별이 과대 대표되고 다른 쪽이 과소 대표될 가능성이 높다. 계통적 표본추출과 층화 표본추출 기법은 "모집단에 대한 정보를 활용"하여 더 "대표성 있는" 표본을 선택함으로써 이 문제를 극복하고자 한다.

또한 단순 무작위 표본추출은 대규모 목표 모집단에서 표본을 추출할 때 번거롭고 지루할 수 있다. 일부 경우 연구자들은 모집단의 하위 집단에 특화된 연구 질문에 관심을 가진다. 예를 들어, 연구자들은 직무 성과의 예측 변수로서의 인지 능력이 인종 집단 간에 동일하게 적용 가능한지 조사하는 데 관심이 있을 수 있다. 단순 무작위 표본추출은 모집단의 하위 표본을 제공하지 않으므로 이러한 상황에서 연구자들의 필요를 충족시킬 수 없으며, 대신 층화 표본추출과 같은 다른 표본추출 전략을 사용할 수 있다.

계통 표본추출

계통 표본추출 기법을 사용한 무작위 표본 선택의 시각적 표현

계통 표본추출(간격 표본추출이라고도 함)은 연구 모집단을 특정 순서 체계에 따라 배열한 다음, 정렬된 목록에서 일정한 간격으로 요소를 선택하는 방법이다. 계통 표본추출은 무작위 시작점에서 출발한 후 그 이후부터 매 k번째 요소를 선택하는 방식으로 진행된다. 이 경우 k=(모집단 크기/표본 크기)이다. 시작점이 자동으로 목록의 첫 번째가 되어서는 안 되며, 대신 목록의 첫 번째부터 k번째 요소 사이에서 무작위로 선택해야 한다는 점이 중요하다. 간단한 예로는 전화번호부에서 매 10번째 이름을 선택하는 것이 있다('매 10번째' 표본, '간격 10의 표본추출'이라고도 한다).

시작점이 무작위화되는 한, 계통 표본추출은 확률 표본추출의 한 유형이다. 구현이 쉽고, 목록의 정렬 기준 변수가 관심 변수와 상관관계가 있는 경우, 유도된 층화가 효율적일 수 있다. '매 10번째' 표본추출은 데이터베이스에서의 효율적인 표본추출에 특히 유용하다.

예를 들어, 빈곤 지역(집 번호 1)에서 시작하여 고급 지구(집 번호 1000)에서 끝나는 긴 거리에서 사람들을 표본추출하려 한다고 가정하자. 이 거리에서 주소를 단순 무작위 선택하면 고급 쪽이 너무 많고 저급 쪽이 너무 적거나(또는 그 반대) 대표성이 없는 표본이 될 수 있다. 예를 들어 거리를 따라 매 10번째 집 번호를 선택하면 표본이 거리 전체에 고르게 분포되어 모든 지구를 대표하게 된다. (항상 1번 집에서 시작하여 991번에서 끝나면 표본은 저급 쪽으로 약간 편향되지만, 시작점을 1번과 10번 사이에서 무작위로 선택하면 이 편향이 제거된다.)

그러나 계통 표본추출은 목록의 주기성에 특히 취약하다. 주기성이 존재하고 그 주기가 사용된 간격의 배수이거나 약수인 경우, 표본이 전체 모집단을 대표하지 못할 가능성이 특히 높아져, 단순 무작위 표본추출보다 정확도가 떨어지게 된다.

예를 들어, 홀수 번호 집은 모두 도로의 북쪽(고급) 면에 있고 짝수 번호 집은 모두 남쪽(저급) 면에 있는 거리를 생각해 보자. 위에서 제시한 표본추출 방식에서는 대표적인 표본을 얻는 것이 불가능하다. 표본으로 추출된 집들이 모두 홀수 번호의 고급 면이거나 모두 짝수 번호의 저급 면이 될 것이며, 연구자가 이 편향에 대한 사전 지식을 가지고 있고 양쪽 면 사이를 오가도록 보장하는 간격(홀수 간격)을 사용하여 이를 피하지 않는 한 그러하다.

계통 표본추출의 또 다른 단점은 SRS보다 더 정확한 시나리오에서도 이론적 성질로 인해 그 정확도를 정량화하기 어렵다는 것이다. (위에서 제시한 계통 표본추출의 두 예에서, 잠재적 표본 오차의 상당 부분은 이웃한 집들 간의 변이에 기인한다. 그러나 이 방법은 이웃한 두 집을 절대 동시에 선택하지 않으므로, 표본은 그 변이에 대한 어떠한 정보도 제공하지 않는다.)

위에서 설명한 바와 같이, 계통 표본추출은 모든 요소가 동일한 선택 확률을 가지므로(주어진 예에서 10분의 1) EPS 방법이다. 그러나 동일한 크기의 서로 다른 부분집합이 서로 다른 선택 확률을 가지므로 '단순 무작위 표본추출'은 아니다. 예를 들어 집합 {4,14,24,...,994}는 10분의 1의 선택 확률을 가지지만, 집합 {4,13,24,34,...}은 선택 확률이 0이다.

계통 표본추출은 비EPS 접근법에도 적용할 수 있다. 예를 들어 아래의 PPS 표본에 대한 논의를 참조하라.

층화 표본추출

층화 표본추출 기법을 사용한 무작위 표본 선택의 시각적 표현

모집단이 여러 뚜렷한 범주를 포함할 때, 프레임을 이러한 범주에 따라 별도의 "층"으로 조직할 수 있다. 그런 다음 각 층은 독립적인 하위 모집단으로서 표본이 추출되며, 여기서 개별 요소가 무작위로 선택될 수 있다. 이 무작위 선택(또는 표본)의 크기와 모집단의 크기의 비율을 표본 비율이라 한다.[^1] 데이터는 목표 변수에 따라 층화되며, 각 층에서 표본이 추출되어 더 희귀한 목표 범주가 표본에서 더 많이 대표되도록 한다. 그런 다음 이 편향된 표본을 기반으로 모형이 구축된다. 입력 변수가 목표에 미치는 효과는 전체 표본 크기가 더 작더라도 무작위 표본에 비해 선택 기반 표본에서 종종 더 정밀하게 추정된다. 결과는 일반적으로 과대 표본추출을 보정하기 위해 조정되어야 한다.

크기 비례 확률 표본추출

일부 경우 표본 설계자는 모집단의 각 요소에 대해 관심 변수와 상관관계가 있다고 여겨지는 "보조 변수" 또는 "크기 측정치"에 접근할 수 있다. 이러한 데이터는 표본 설계의 정확도를 향상시키는 데 사용될 수 있다. 한 가지 방법은 위에서 논의한 바와 같이 보조 변수를 층화의 기준으로 사용하는 것이다.

또 다른 방법은 크기 비례 확률('PPS') 표본추출로, 각 요소의 선택 확률이 최대 1까지 크기 측정치에 비례하도록 설정된다. 단순 PPS 설계에서 이러한 선택 확률은 포아송 표본추출의 기초로 사용될 수 있다. 그러나 이는 표본 크기가 가변적이라는 단점이 있으며, 선택의 우연적 변동으로 인해 모집단의 서로 다른 부분이 여전히 과대 또는 과소 대표될 수 있다.

계통 표본추출 이론을 사용하여 크기 비례 확률 표본을 생성할 수 있다. 이는 크기 변수 내의 각 수치를 하나의 표본추출 단위로 취급함으로써 수행된다. 그런 다음 크기 변수 내에서 이러한 수치를 균등한 간격으로 선택하여 표본을 식별한다. 이 방법은 때때로 PPS-순차적 표본추출이라 불리며, 감사나 법의학적 표본추출의 경우에는 화폐단위 표본추출이라 불린다.

예: 학생 수가 각각 150명, 180명, 200명, 220명, 260명, 490명인 6개 학교(총 1500명)가 있고, 학생 수를 기준으로 크기 3의 PPS 표본을 사용하려 한다고 가정하자. 이를 위해 첫 번째 학교에 1부터 150까지, 두 번째 학교에 151부터 330 (= 150 + 180)까지, 세 번째 학교에 331부터 530까지 번호를 할당하고, 마지막 학교(1011부터 1500까지)까지 같은 방식으로 진행할 수 있다. 그런 다음 1부터 500(= 1500/3) 사이에서 무작위 시작점을 생성하고 500의 배수로 학교 모집단을 순서대로 세어 나간다. 무작위 시작점이 137이었다면, 137번, 637번, 1137번이 할당된 학교, 즉 첫 번째, 네 번째, 여섯 번째 학교를 선택하게 된다.

PPS 접근법은 모집단 추정치에 가장 큰 영향을 미치는 대규모 요소에 표본을 집중시킴으로써 주어진 표본 크기에 대한 정확도를 향상시킬 수 있다. PPS 표본추출은 요소 크기가 크게 다르고 보조 정보가 흔히 이용 가능한 기업 조사에 일반적으로 사용된다. 예를 들어, 호텔에서의 숙박 일수를 측정하려는 조사에서 각 호텔의 객실 수를 보조 변수로 사용할 수 있다. 일부 경우 더 최신의 추정치를 산출하고자 할 때 관심 변수의 이전 측정값을 보조 변수로 사용할 수 있다.[^2]

군집 표본추출

군집 표본추출 기법을 사용한 무작위 표본 선택의 시각적 표현

때로는 응답자를 집단('군집')으로 선택하는 것이 더 비용 효율적이다. 표본추출은 종종 지리적으로 또는 시간대별로 군집화된다(거의 모든 표본은 어떤 의미에서 시간적으로 '군집화'되어 있지만, 분석에서 이를 고려하는 경우는 드물다). 예를 들어, 도시 내 가구를 조사할 때 100개의 도시 블록을 선택한 다음 선택된 블록 내의 모든 가구를 면접할 수 있다.

군집화는 이동 및 행정 비용을 줄일 수 있다. 위의 예에서 면접원은 한 블록 내의 여러 가구를 방문하기 위해 한 번만 이동하면 되며, 각 가구마다 다른 블록으로 운전할 필요가 없다.

또한 목표 모집단의 모든 요소를 나열하는 표본 프레임이 필요 없다는 것을 의미한다. 대신 군집 수준의 프레임에서 군집을 선택하고, 선택된 군집에 대해서만 요소 수준의 프레임을 생성할 수 있다. 위의 예에서 표본에는 초기 선택을 위한 블록 수준의 도시 지도와 선택된 100개 블록의 가구 수준 지도만 필요하며, 도시 전체의 가구 수준 지도는 필요하지 않다.

군집 표본추출(군집화 표본추출이라고도 함)은 일반적으로 군집 간 차이와 군집 내 변이를 비교했을 때, 표본 추정치의 변동성을 단순 무작위 표본추출보다 증가시킨다. 이러한 이유로 군집 표본추출은 동일한 수준의 정확도를 달성하기 위해 SRS보다 더 큰 표본이 필요하지만, 군집화로 인한 비용 절감이 여전히 이를 더 저렴한 선택지로 만들 수 있다.

군집 표본추출은 일반적으로 다단계 표본추출로 구현된다. 이는 두 개 이상의 수준의 단위가 서로 내포된 복잡한 형태의 군집 표본추출이다. 첫 번째 단계는 표본추출에 사용할 군집을 구성하는 것이다. 두 번째 단계에서는 각 군집에서 1차 단위의 표본이 무작위로 선택된다(선택된 모든 군집에 포함된 모든 단위를 사용하는 대신). 이후 단계에서는 선택된 각 군집 내에서 추가적인 단위 표본이 선택되며, 이런 식으로 계속된다. 이 절차의 마지막 단계에서 선택된 모든 최종 단위(예를 들어 개인)가 조사된다. 따라서 이 기법은 본질적으로 이전 무작위 표본의 무작위 하위 표본을 취하는 과정이다.

다단계 표본추출은 완전한 모집단 목록을 구성해야 하는 경우(다른 표본추출 방법을 적용하기 전에) 표본추출 비용을 크게 줄일 수 있다. 선택되지 않은 군집을 기술하는 작업을 제거함으로써 다단계 표본추출은 전통적인 군집 표본추출과 관련된 막대한 비용을 줄일 수 있다.[^2] 그러나 각 표본이 전체 모집단을 완전히 대표하지 못할 수 있다.

할당 표본추출

할당 표본추출에서는 층화 표본추출에서와 마찬가지로 먼저 모집단을 상호 배타적인 하위 집단으로 분할한다. 그런 다음 지정된 비율에 따라 각 구간에서 대상 또는 단위를 선택하기 위해 판단이 사용된다. 예를 들어, 면접원에게 45세에서 60세 사이의 여성 200명과 남성 300명을 표본추출하라고 지시할 수 있다.

이 기법을 비확률 표본추출로 만드는 것은 바로 이 두 번째 단계이다. 할당 표본추출에서 표본의 선택은 비무작위적이다. 예를 들어, 면접원은 가장 협조적으로 보이는 사람을 면접하려는 경향이 있을 수 있다. 문제는 모든 사람이 선택될 기회를 얻지 못하므로 이러한 표본이 편향될 수 있다는 것이다. 이 무작위 요소는 할당 표본추출의 가장 큰 약점이며, 할당 대 확률은 수년간 논쟁의 대상이 되어 왔다.

미니맥스 표본추출

표본추출 비율이 모집단 통계를 따르지 않는 불균형 데이터셋에서는 미니맥스 표본추출이라는 보수적인 방식으로 데이터셋을 재표본추출할 수 있다. 미니맥스 표본추출은 값이 0.5로 증명된 앤더슨 미니맥스 비율에서 기원한다: 이진 분류에서 클래스별 표본 크기는 동일하게 선택되어야 한다. 이 비율은 가우시안 분포를 가진 LDA 분류기의 가정 하에서만 미니맥스 비율로 증명될 수 있다. 미니맥스 표본추출의 개념은 클래스별 스마트 분류기라 불리는 일반적인 분류 규칙 클래스에 대해 최근 개발되었다. 이 경우 클래스의 표본추출 비율은 클래스 사전 확률에 대한 모든 가능한 모집단 통계에 걸쳐 최악의 경우 분류기 오류가 최소가 되도록 선택된다.[^1] 광고의 목표 모집단은 소셜 미디어가 제공하는 도구를 사용하여 위치, 나이, 성별, 소득, 직업, 교육 또는 관심사와 같은 특성에 따라 선택될 수 있다. 광고에는 연구에 대한 메시지와 설문 조사 링크가 포함될 수 있다. 링크를 따라가 설문을 완료한 후, 자원자는 표본 모집단에 포함될 데이터를 제출한다. 이 방법은 전 세계 모집단에 도달할 수 있지만 캠페인 예산에 의해 제한된다. 초대된 모집단 외부의 자원자도 표본에 포함될 수 있다.

이 표본으로부터 일반화하기는 어려운데, 이는 전체 모집단을 대표하지 못할 수 있기 때문이다. 종종 자원자들은 설문의 주요 주제에 강한 관심을 가지고 있다.

선분 교차 표본추출

선분 교차 표본추출은 "횡단선"이라 불리는 선택된 선분이 요소와 교차하는 경우 해당 요소를 표본추출하는, 한 영역 내의 요소를 표본추출하는 방법이다.

패널 표본추출

패널 표본추출은 먼저 무작위 표본추출 방법을 통해 참가자 집단을 선택한 다음, 일정 기간에 걸쳐 해당 집단에게 (잠재적으로 동일한) 정보를 여러 번 요청하는 방법이다. 따라서 각 참가자는 두 번 이상의 시점에서 면접되며, 각 데이터 수집 기간을 "웨이브"라 한다. 이 방법은 1938년 사회학자 Paul Lazarsfeld가 정치 캠페인 연구 수단으로 개발하였다.[^17] 이 종단적 표본추출 방법은 만성 질환에서 직무 스트레스, 주간 식품 지출에 이르기까지 모집단의 변화를 추정할 수 있게 한다. 패널 표본추출은 또한 연령에 따른 개인 내 건강 변화에 대해 연구자에게 정보를 제공하거나 배우자 간 상호작용과 같은 연속 종속 변수의 변화를 설명하는 데 사용될 수 있다.[^3] 패널 데이터를 분석하기 위한 여러 방법이 제안되었으며, MANOVA, 성장 곡선, 지연 효과를 가진 구조방정식 모형 등이 있다.

눈덩이 표본추출

눈덩이 표본추출은 소규모의 초기 응답자 집단을 찾아 이들을 통해 더 많은 응답자를 모집하는 방법이다. 이는 모집단이 숨겨져 있거나 열거하기 어려운 경우에 특히 유용하다.

이론적 표본추출

이론적 표본추출[^4]은 해당 분야에 대한 더 깊은 이해를 발전시키거나 이론을 개발하는 것을 목표로, 지금까지 수집된 데이터의 결과를 기반으로 표본이 선택되는 것이다. 일반적인 경향을 조사하기 위해 먼저 초기의 일반적인 표본이 수집되며, 이후의 표본추출은 현상이 실제로 관찰될 가능성을 극대화하기 위해 극단적이거나 매우 구체적인 사례를 선택하는 것으로 구성될 수 있다.

능동 표본추출

능동 표본추출에서는 기계 학습 알고리즘을 훈련시키는 데 사용되는 표본이 능동적으로 선택되며, 능동 학습(기계 학습)과도 비교된다.

판단 선택

판단 표본추출은 전문가 표본추출 또는 목적적 표본추출이라고도 하며, 전문가의 의견에 기반하여 표본이 선택되는 비무작위 표본추출의 한 유형으로, 전문가가 제공하는 정보의 가치에 따라 참가자를 선택할 수 있다.

임의 표본추출

임의 표본추출은 무작위성을 모사하기 위해 인간의 판단을 사용하는 개념을 말한다. 표본이 수작업으로 선택되지만, 목표는 표본 선택 시 의식적인 편향이 존재하지 않도록 하는 것이나, 선택 편향으로 인해 종종 실패한다.[^18] 임의 표본추출은 일반적으로 다른 표본추출 방법을 수행할 도구나 능력이 없을 때 편의성으로 인해 선택된다.

이러한 표본의 주요 약점은 종종 전체 모집단의 특성을 대표하지 못하고 모집단의 한 부분만을 대표한다는 것이다. 이 불균형한 대표성 때문에 임의 표본추출의 결과는 종종 편향된다.[^19]

선정된 단위의 대체

표본 추출 방식은 비복원 추출('WOR' – 동일한 표본에서 어떤 요소도 두 번 이상 선택될 수 없음) 또는 복원 추출('WR' – 하나의 표본에서 어떤 요소가 여러 번 나타날 수 있음)로 나뉠 수 있다. 예를 들어, 물고기를 잡아 측정한 후 표본 추출을 계속하기 전에 즉시 물에 다시 놓아준다면, 같은 물고기를 두 번 이상 잡아 측정할 수 있으므로 이는 복원 추출 설계이다. 그러나 물고기를 물에 다시 놓아주지 않거나, 잡은 후 표식을 달고 방류한다면 이는 비복원 추출 설계가 된다.

표본 크기 결정

공식, 표, 검정력 함수 차트는 표본 크기를 결정하는 잘 알려진 접근법이다.

표본 크기 표를 사용하는 단계:

  1. 관심 효과 크기, α, β를 가정한다.
  2. 표본 크기 표를 확인한다[^20]

선택한 α에 해당하는 표를 선택한다

원하는 검정력에 해당하는 행을 찾는다

추정된 효과 크기에 해당하는 열을 찾는다.

열과 행의 교차점이 필요한 최소 표본 크기이다.

표본 추출과 데이터 수집

올바른 데이터 수집에는 다음이 포함된다:

  • 정의된 표본 추출 과정을 따르기
  • 데이터를 시간순으로 유지하기
  • 의견 및 기타 맥락적 사건을 기록하기
  • 무응답을 기록하기

표본 추출의 응용

표본 추출은 더 큰 데이터 세트 내에서 적절한 데이터 포인트를 선택하여 전체 모집단의 특성을 추정할 수 있게 해준다. 예를 들어, 매일 약 6억 개의 트윗이 생성된다. 하루 동안 논의되는 주제를 파악하기 위해 모든 트윗을 살펴볼 필요는 없으며, 각 주제에 대한 감성을 파악하기 위해 모든 트윗을 살펴볼 필요도 없다. 트위터 데이터의 표본 추출에 대한 이론적 공식화가 개발되었다.[^21]

제조업에서는 음향, 진동, 압력, 전류, 전압, 컨트롤러 데이터 등 다양한 유형의 센서 데이터를 짧은 시간 간격으로 이용할 수 있다. 가동 중단 시간을 예측하기 위해 모든 데이터를 살펴볼 필요는 없으며 표본만으로도 충분할 수 있다.

표본 조사의 오류

조사 결과에는 일반적으로 어느 정도의 오류가 수반된다. 총 오류는 표본 오류와 비표본 오류로 분류할 수 있다. 여기서 "오류"라는 용어는 무작위 오류뿐만 아니라 체계적 편향도 포함한다.

표본 오류와 편향

표본 오류와 편향은 표본 설계에 의해 유발된다. 여기에는 다음이 포함된다:

  1. 선택 편향: 실제 선택 확률이 결과 계산 시 가정한 확률과 다를 때 발생한다.
  2. 무작위 표본 오류: 표본의 요소가 무작위로 선택됨에 따라 결과에 나타나는 무작위 변동이다.

비표본 오류

비표본 오류는 데이터 수집, 처리 또는 표본 설계의 문제로 인해 최종 조사 추정치에 영향을 미칠 수 있는 기타 오류이다. 이러한 오류에는 다음이 포함될 수 있다:

  1. 과잉 포함: 모집단 외부의 데이터가 포함되는 것
  2. 과소 포함: 표본 프레임이 모집단의 요소를 포함하지 못하는 것
  3. 측정 오류: 예를 들어, 응답자가 질문을 잘못 이해하거나 답변하기 어려워하는 경우
  4. 처리 오류: 데이터 코딩 과정에서의 실수
  5. 무응답 또는 참여 편향: 선택된 모든 개인으로부터 완전한 데이터를 얻지 못하는 것 표본 추출 후에는 이후 분석에 어떤 차이가 영향을 미칠 수 있는지 연구하기 위해, 의도된 과정이 아닌 실제로 수행된 표본 추출 과정에 대한 검토가 이루어진다.

특히 무응답과 관련된 문제가 있다. 무응답에는 두 가지 주요 유형이 존재한다:[^22]

  • 단위 무응답 (조사의 어떤 부분도 완료하지 않는 것)
  • 항목 무응답 (조사에 제출 또는 참여하였으나 조사의 하나 이상의 구성 요소/질문을 완료하지 못하는 것)

표본 조사에서 표본의 일부로 선정된 많은 개인이 참여를 꺼리거나, 참여할 시간이 없거나(기회비용),[^23] 조사 관리자가 그들에게 연락하지 못하는 경우가 있다. 이 경우, 응답자와 비응답자 간에 차이가 발생할 위험이 있으며, 이는 모집단 모수의 편향된 추정으로 이어진다. 이는 흔히 조사 설계를 개선하고, 인센티브를 제공하며, 비응답자에게 반복적으로 연락을 시도하고 나머지 프레임과의 유사점 및 차이점을 파악하는 후속 연구를 수행함으로써 해결된다.[^24] 또한 (모집단 기준치가 이용 가능한 경우) 데이터에 가중치를 부여하거나 다른 질문에 대한 답변을 기반으로 데이터를 대체함으로써 그 영향을 완화할 수 있다. 무응답은 특히 인터넷 표본 추출에서 큰 문제이다. 이 문제의 원인으로는 부적절하게 설계된 조사, 과도한 조사(또는 조사 피로),[^3][^25] 그리고 잠재적 참여자가 더 이상 사용하지 않거나 정기적으로 확인하지 않는 여러 개의 이메일 주소를 보유하고 있다는 사실 등이 있다.

조사 가중치

많은 상황에서 표본 비율은 층별로 다를 수 있으며, 모집단을 올바르게 대표하기 위해 데이터에 가중치를 부여해야 한다. 예를 들어, 영국에서 개인에 대한 단순 무작위 표본은 표본 추출 비용이 과도하게 높은 스코틀랜드 외딴 섬의 주민을 포함하지 못할 수 있다. 더 저렴한 방법은 도시와 농촌 층으로 나눈 층화 표본을 사용하는 것이다. 농촌 표본은 표본에서 과소 대표될 수 있지만, 이를 보상하기 위해 분석에서 적절히 가중치를 높일 수 있다.

더 일반적으로, 표본 설계가 각 개인에게 동일한 선택 기회를 부여하지 않는 경우 데이터에 가중치를 부여해야 한다. 예를 들어, 가구가 동일한 선택 확률을 가지지만 각 가구 내에서 한 명만 면접 대상이 되는 경우, 대가구 구성원은 면접 대상으로 선택될 확률이 더 낮아진다. 이는 조사 가중치를 사용하여 보정할 수 있다. 마찬가지로, 전화선이 두 개 이상인 가구는 무작위 전화번호 다이얼링 표본에서 선택될 확률이 더 높으며, 가중치를 통해 이를 조정할 수 있다.

가중치는 무응답 보정에 도움을 주는 등 다른 목적으로도 사용될 수 있다.

무작위 표본 생성 방법

  • 난수표
  • 의사난수 생성기를 위한 수학적 알고리즘
  • 동전, 카드 또는 ERNIE와 같은 정교한 장치 등 물리적 무작위화 장치

같이 보기

  • 데이터 수집
  • 설계 효과
  • 추정 이론
  • Gy의 표본추출 이론
  • 독일 전차 문제
  • Horvitz–Thompson 추정량
  • 라틴 초입방체 표본추출
  • 공식 통계
  • 비율 추정량
  • 반복 (통계학)
  • 무작위 표본추출 메커니즘
  • 재표본추출 (통계학)
  • 의사난수 표본추출
  • 표본 크기 결정
  • 표본추출 (사례 연구)
  • 표본추출 편향
  • 표본 분포
  • 표본추출 오차
  • 추첨제
  • 조사 표본추출

참고 문헌

Groves 등의 교과서는 (인지심리학에 기반한) 설문지 개발에 관한 최근 문헌을 포함하여 조사 방법론의 개요를 제공한다:

  • Robert Groves 등. 조사 방법론 (2010 제2판 [2004]) .

다른 서적들은 조사 표본추출의 통계 이론에 초점을 맞추며, 다음 교과서에서 논의되는 기초 통계학에 대한 일정한 지식이 필요하다:

  • David S. Moore and George P. McCabe (2005년 2월). "통계 실무 입문" (제5판). W.H. Freeman & Company. .
  • Scheaffer 등의 입문서는 고등학교 대수학의 이차방정식을 사용한다:
  • Scheaffer, Richard L., William Mendenhal and R. Lyman Ott. 초등 조사 표본추출, 제5판. Belmont: Duxbury Press, 1996. Lohr, Särndal 등, 그리고 Cochran의 저서에는 보다 수학적인 통계학이 필요하다:[^26]
      • Deming과 Kish의 역사적으로 중요한 저서들은 사회과학자들에게 (특히 미국 인구조사 및 미시간 대학교 사회조사연구소에 관하여) 여전히 귀중한 통찰을 제공한다:
    • Kish, Leslie (1995) 조사 표본추출, Wiley,

더 읽을거리

  • Singh, G N, Jaiswal, A. K., and Pandey A. K. (2021), 2회 연속 표본추출에서 결측 데이터에 대한 개선된 대체 방법, Communications in Statistics: Theory and Methods. DOI:10.1080/03610926.2021.1944211
  • Chambers, R L, and Skinner, C J (editors) (2003), 조사 데이터 분석, Wiley,
  • Deming, W. Edwards (1975) 행동의 기초로서의 확률에 대하여, The American Statistician, 29(4), pp. 146–152.
  • Gy, P (2012) 이질적 및 동적 물질 시스템의 표본추출: 이질성, 표본추출 및 균질화의 이론, Elsevier Science,
  • Korn, E.L., and Graubard, B.I. (1999) 건강 조사 분석, Wiley,
  • Lucas, Samuel R. (2012). "존재 증명을 넘어서: 존재론적 조건, 인식론적 함의, 그리고 심층 면접 연구."], Quality & Quantity, .
  • Stuart, Alan (1962) 과학적 표본추출의 기본 개념, Hafner Publishing Company, New York
    • (144쪽에 T. M. F. Smith의 초상화)
      • 표준

ISO

  • ISO 2859 시리즈
  • ISO 3951 시리즈

ASTM

  • ASTM E105 재료의 확률 표본추출을 위한 표준 실무
  • ASTM E122 로트 또는 공정 특성의 평균을 지정된 허용 오차 이내로 추정하기 위한 표본 크기 계산 표준 실무
  • ASTM E141 확률 표본추출 결과에 기반한 증거의 수용을 위한 표준 실무
  • ASTM E1402 표본추출 관련 표준 용어
  • ASTM E1994 공정 지향 AOQL 및 LTPD 표본추출 계획 사용을 위한 표준 실무
  • ASTM E2234 AQL로 색인된 속성별 제품 흐름의 표본추출을 위한 표준 실무

ANSI, ASQ

  • ANSI/ASQ Z1.4

미국 연방 및 군사 표준

  • MIL-STD-105
  • MIL-STD-1916

외부 링크


참고 문헌

[^1]: Scott, A.J.. 사례-대조 또는 선택 기반 표본추출에서의 로지스틱 모형 적합

[^2]: 표본추출: 설계와 분석

[^3]: Groves 외. ''조사 방법론''

[^4]: 웹 인용 url = http://www.fao.org/ag/humannutrition/32428-0613f516cb07eade922c8c19b4d0452c0.pdf 제목 = 표본추출 방법의 예시

[^5]: Anderson, Theodore. 다변량 분석에 의한 분류

[^6]: Shahrokh Esfahani, Mohammad. 분리 표본추출이 분류 정확도에 미치는 영향

[^7]: 표본추출과 평가. MEASURE Evaluation

[^8]: Salant, Priscilla, I. Dillman, and A. Don. ''자체 설문조사를 수행하는 방법''. No. 300.723 S3. 1994.

[^9]: Seneta, E.. 러시아 표본조사 역사 개관. (1985)

[^10]: [[David S. Moore]]와 [[George P. McCabe]]. "''통계학 실습 입문''".

[^12]: 표본 개표 - 싱가포르 선거관리국

[^13]: Ho, Timothy. 2023년 대통령 선거: 오늘 밤 표본 개표는 얼마나 정확할 것인가?. (2023년 9월 1일)

[^14]: 표본추출: 설계와 분석

[^15]: 모형 보조 표본조사

[^16]: 기초 표본조사

[^17]: Lazarsfeld, P., & Fiske, M. (1938). 여론 측정의 새로운 도구로서의 "패널". The Public Opinion Quarterly, 2(4), 596–612.

[^18]: 임의 표본추출 정의. (2024년 1월 7일)

[^19]: 국세청 통계적 표본추출 편람. 미국: 재무부, 국세청

[^20]: Cohen, 1988

[^21]: 학회 발표 인용 저자=Deepan Palguna 저자2=Vikas Joshi 저자3=Venkatesan Chakaravarthy 저자4=Ravi Kothari 저자5=L. V. Subramaniam 제목=트위터 표본추출 알고리즘 분석 학회지

[^22]: Berinsky, A. J. (2008). "설문조사 무응답". 수록: W. Donsbach & M. W. Traugott (편), ''여론 조사 연구 세이지 핸드북'' (pp. 309–321). Thousand Oaks, CA: Sage Publications.

[^23]: Dillman, D.A., Smyth, J.D., & Christian, L. M. (2009). 인터넷, 우편, 혼합 방식 설문조사: 맞춤형 설계 방법. San Francisco: Jossey-Bass.

[^24]: Vehovar, V., Batagelj, Z., Manfreda, K.L., & Zaletel, M. (2002). "웹 설문조사에서의 무응답". 수록: R. M. Groves, D. A. Dillman, J. L. Eltinge, & R. J. A. Little (편), ''설문조사 무응답'' (pp. 229

[^25]: 서적 인용 last1 = Porter last2 = Whitcomb last3 = Weitzer 장 = 학생 대상 복수 설문조사와 설문 피로 editor1-last = Porter editor1-first = Stephen R 제목 = 극복

[^26]: Cochran, William G.. 표본추출 기법, 제3판. John Wiley & Sons. (1977-01-01)