표본추출
통계학, 품질 보증, 조사 방법론에서 표본추출(sampling)은 전체 모집단의 특성을 추정하기 위해 통계적 모집단 내에서 개체의 부분집합을 선택하는 것이다. 이 부분집합을 통계적 표본(또는 줄여서 표본)이라 하며, 전체 모집단을 반영하도록 설계된다. 통계학자들은 모집단을 대표하는 표본을 수집하기 위해 노력한다. 표본추출은 전체 모집단의 데이터를 기록하는 것에 비해 비용이 적게 들고 데이터 수집 속도가 빠르며(많은 경우 전체 모집단을 수집하는 것은 불가능한데, 예를 들어 우주의 모든 별의 크기를 측정하는 것이 그러하다), 따라서 전체 모집단을 측정하는 것이 현실적으로 불가능한 경우에도 통찰을 제공할 수 있다.
각 관측은 독립적인 대상이나 개체의 하나 이상의 속성(무게, 위치, 색상, 질량 등)을 측정한다. 조사 표본추출에서는 표본 설계를 보정하기 위해 데이터에 가중치를 적용할 수 있으며, 특히 층화 표본추출에서 그러하다.[^7] 확률론과 통계 이론의 결과가 실무 지침으로 활용된다. 비즈니스 및 의학 연구에서 표본추출은 모집단에 관한 정보를 수집하는 데 널리 사용된다.[^8] 합격 판정 표본추출은 생산 로트의 자재가 해당 규격을 충족하는지 판정하는 데 사용된다.
역사
제비뽑기를 이용한 무작위 표본추출은 오래된 개념으로, 성경에 여러 차례 언급되어 있다. 1786년 Pierre Simon Laplace는 비율 추정량과 함께 표본을 사용하여 프랑스의 인구를 추정하였다. 그는 또한 오차의 확률적 추정치를 계산하였다. 이러한 추정치는 현대의 신뢰구간으로 표현된 것은 아니었으나, 확률 1000/1001로 표본추출 오차의 특정 상한을 달성하는 데 필요한 표본 크기로 표현되었다. 그의 추정에는 균등 사전 확률을 사용한 베이즈 정리가 적용되었으며, 표본이 무작위라고 가정하였다. Alexander Ivanovich Chuprov는 1870년대에 러시아 제국에 표본 조사를 도입하였다.[^9]
미국에서는 1936년 리터러리 다이제스트가 대통령 선거에서 공화당의 승리를 예측하였으나, 심각한 편향으로 인해 크게 빗나갔다 https://www.wsj.com/articles/SB115974322285279370. 200만 명 이상이 잡지 구독자 명단과 전화번호부를 통해 얻은 이름으로 이 조사에 응답하였다. 이 명단이 공화당 지지자 쪽으로 심하게 편향되어 있었다는 사실이 인식되지 못하였고, 결과적으로 매우 큰 규모의 표본이었음에도 심각한 결함이 있었다.^10
싱가포르의 선거에서는 2015년 선거 이후 이 관행을 채택하였으며, 이는 표본 개표라고도 알려져 있다. 싱가포르의 선거관리위원회인 선거부(ELD)에 따르면, 표본 개표는 추측과 허위 정보를 줄이는 데 도움이 되며, 선거 관리관이 해당 선거구의 선거 결과를 대조 확인하는 데에도 도움이 된다. 보고된 표본 개표 결과는 95% 신뢰구간에서 4%의 오차범위로 상당히 정확한 지표적 결과를 산출하지만, 선거부는 표본 개표와 공식 결과는 별개이며, 개표가 완료되면 선거관리관만이 공식 결과를 선언할 수 있다고 국민에게 상기시켰다.[^12][^13]
모집단의 정의
성공적인 통계적 실천은 명확한 문제 정의에 기반한다. 표본추출에서 이는 표본이 추출되는 "모집단"을 정의하는 것을 포함한다. 모집단은 이해하고자 하는 특성을 가진 모든 사람이나 항목을 포함하는 것으로 정의할 수 있다. 모집단의 모든 사람이나 모든 것으로부터 정보를 수집할 충분한 시간이나 비용이 거의 없기 때문에, 목표는 해당 모집단의 대표적인 표본(또는 부분집합)을 찾는 것이 된다.
때때로 모집단을 정의하는 것이 명확한 경우가 있다. 예를 들어, 제조업체가 생산 과정에서 나온 자재 배치의 품질이 고객에게 출하할 만큼 충분히 높은지, 아니면 품질 불량으로 인해 폐기하거나 재작업해야 하는지를 결정해야 하는 경우가 있다. 이 경우 해당 배치가 모집단이 된다.
관심 대상인 모집단이 물리적 대상으로 구성되는 경우가 많지만, 때로는 시간, 공간, 또는 이러한 차원의 조합에 걸쳐 표본을 추출해야 할 필요가 있다. 예를 들어, 슈퍼마켓 인력 배치에 대한 조사는 다양한 시간대의 계산대 줄 길이를 조사할 수 있으며, 멸종 위기 펭귄에 대한 연구는 시간에 따른 다양한 사냥터의 이용 현황을 파악하는 것을 목표로 할 수 있다. 시간 차원의 경우, 초점은 기간이나 개별 시점에 맞춰질 수 있다.
다른 경우에는, 조사 대상인 '모집단'이 훨씬 더 무형적일 수 있다. 예를 들어, 조지프 재거는 몬테카를로의 한 카지노에서 룰렛 휠의 행동을 연구하여, 이를 통해 편향된 휠을 식별하였다. 이 경우, 재거가 조사하고자 한 '모집단'은 휠의 전반적인 행동(즉, 무한히 많은 시행에 걸친 결과의 확률 분포)이었으며, 그의 '표본'은 해당 휠에서 관측된 결과들로 구성되었다. 구리의 전기 전도도와 같은 물질의 특성을 반복 측정할 때에도 유사한 고려 사항이 발생한다.
이러한 상황은 관측된 모집단이 그 결과인 원인 체계에 대한 지식을 탐구할 때 자주 발생한다. 이러한 경우, 표본추출 이론은 관측된 모집단을 더 큰 '초모집단'의 표본으로 취급할 수 있다. 예를 들어, 연구자가 100명의 환자로 구성된 시험 집단에서 새로운 '금연' 프로그램의 성공률을 연구하여, 이 프로그램이 전국적으로 시행될 경우의 효과를 예측하고자 할 수 있다. 여기서 초모집단은 "이 치료에 접근할 수 있는 국가 내 모든 사람"으로, 프로그램이 아직 모든 사람에게 제공되지 않았으므로 아직 존재하지 않는 집단이다.
표본이 추출되는 모집단은 정보를 얻고자 하는 모집단과 동일하지 않을 수 있다. 프레임 문제 등(아래 참조)으로 인해 이 두 집단 사이에 크지만 완전하지는 않은 중복이 있는 경우가 많다. 때로는 이 두 집단이 완전히 분리될 수도 있다 – 예를 들어, 인간 건강에 대한 더 나은 이해를 얻기 위해 쥐를 연구하거나, 2009년에 태어난 사람들에 대한 예측을 하기 위해 2008년에 태어난 사람들의 기록을 연구할 수 있다.
표본추출 대상 모집단과 관심 모집단을 정밀하게 설정하는 데 투입한 시간은 대체로 보람이 있는데, 이는 이 단계에서 간과되었을 많은 쟁점, 모호성, 그리고 의문점을 제기하기 때문이다.
표본 추출틀
가장 단순한 경우, 예를 들어 생산된 자재 배치에서 표본을 추출하는 경우(로트별 합격 판정 표본 추출)에는 모집단의 모든 개별 항목을 식별하고 측정하여 그 중 어느 것이든 표본에 포함시키는 것이 가장 바람직할 것이다. 그러나 보다 일반적인 경우에는 이것이 대개 가능하지 않거나 실용적이지 않다. 모든 쥐의 집합에서 모든 쥐를 식별할 방법은 없다. 투표가 의무가 아닌 곳에서는 다가오는 선거에서 누가 투표할 것인지를 (선거 전에) 미리 식별할 방법이 없다. 이러한 부정확한 모집단은 아래의 어떤 방식으로도 표본 추출이 불가능하며, 통계 이론을 적용할 수도 없다.
이에 대한 해결책으로, 모든 개별 요소를 식별하고 그 중 어느 것이든 표본에 포함시킬 수 있는 속성을 가진 표본 추출틀을 찾게 된다.[^14][^15][^16] 가장 단순한 유형의 틀은 적절한 연락처 정보가 포함된 모집단 요소의 목록(가능하면 전체 모집단)이다. 예를 들어, 여론 조사에서 가능한 표본 추출틀에는 선거인 명부와 전화번호부가 포함된다.
확률 표본은 모집단의 모든 단위가 표본에 선택될 확률이 (0보다 큰) 존재하며, 이 확률을 정확하게 결정할 수 있는 표본이다. 이러한 특성의 결합은 표본 추출된 단위를 선택 확률에 따라 가중치를 부여함으로써 모집단 총계의 비편향 추정치를 산출할 수 있게 한다.
예시: 특정 거리에 거주하는 성인의 총소득을 추정하고자 한다. 우리는 그 거리의 각 가구를 방문하여 거주하는 모든 성인을 파악하고, 각 가구에서 무작위로 한 명의 성인을 선택한다. (예를 들어, 각 사람에게 0과 1 사이의 균등 분포에서 생성된 난수를 할당하고, 각 가구에서 가장 높은 숫자를 가진 사람을 선택할 수 있다). 그런 다음 선택된 사람을 인터뷰하여 소득을 파악한다.
혼자 사는 사람은 반드시 선택되므로, 단순히 그들의 소득을 총계 추정치에 더한다. 그러나 두 명의 성인이 사는 가구에 거주하는 사람은 선택될 확률이 2분의 1에 불과하다. 이를 반영하기 위해, 그러한 가구를 방문했을 때 선택된 사람의 소득을 총계에 두 번 계산한다. (해당 가구에서 선택된 사람은 선택되지 않은 사람도 대표하는 것으로 느슨하게 볼 수 있다.)
위의 예시에서 모든 사람이 동일한 선택 확률을 갖는 것은 아니다. 이것이 확률 표본이 되는 이유는 각 사람의 확률이 알려져 있다는 사실이다. 모집단의 모든 요소가 동일한 선택 확률을 갖는 경우, 이를 '동일 선택 확률'(EPS) 설계라고 한다. 이러한 설계는 모든 표본 추출 단위에 동일한 가중치가 부여되기 때문에 '자체 가중' 설계라고도 불린다.
확률 표본 추출에는 단순 무작위 표본 추출, 계통 표본 추출, 층화 표본 추출, 크기 비례 확률 표본 추출, 그리고 군집 또는 다단계 표본 추출이 포함된다. 이러한 다양한 확률 표본 추출 방법에는 두 가지 공통점이 있다:
- 모든 요소가 표본으로 추출될 알려진 0이 아닌 확률을 가지며
- 어떤 단계에서든 무작위 선택이 포함된다.
비확률 표본 추출
비확률 표본 추출은 모집단의 일부 요소가 선택될 가능성이 전혀 없거나 (이를 때때로 '포괄 범위 밖'/'과소 포괄'이라고 함), 선택 확률을 정확하게 결정할 수 없는 모든 표본 추출 방법을 말한다. 이는 관심 모집단에 대한 가정에 기반하여 요소를 선택하는 것을 포함하며, 이 가정이 선택 기준을 형성한다. 따라서 요소의 선택이 비무작위적이므로, 비확률 표본 추출은 표본 추출 오차의 추정을 허용하지 않는다. 이러한 조건은 배제 편향을 발생시켜, 표본이 모집단에 대해 제공할 수 있는 정보의 양에 한계를 둔다. 표본과 모집단 사이의 관계에 대한 정보가 제한되어, 표본에서 모집단으로 외삽하기가 어려워진다.
예시: 특정 거리의 모든 가구를 방문하여 문을 여는 첫 번째 사람을 인터뷰한다. 거주자가 한 명 이상인 모든 가구에서 이는 비확률 표본이 되는데, 일부 사람들이 문을 열 가능성이 더 높기 때문이다 (예를 들어, 대부분의 시간을 집에서 보내는 실업자가 조사원이 방문할 때 직장에 있을 수 있는 취업한 동거인보다 문을 열 가능성이 더 높다). 그리고 이러한 확률을 계산하는 것은 현실적으로 불가능하다.
비확률 표본 추출 방법에는 편의 표본 추출, 할당 표본 추출, 눈덩이 표본 추출, 그리고 목적적 표본 추출이 포함된다. 또한, 무응답의 특성이 잘 이해되지 않는 경우 무응답 효과는 어떤 확률 설계든 비확률 설계로 전환시킬 수 있는데, 이는 무응답이 사실상 각 요소의 표본 추출 확률을 변경하기 때문이다.
표본추출 방법
위에서 확인된 프레임 유형 내에서 다양한 표본추출 방법을 개별적으로 또는 조합하여 사용할 수 있다. 이러한 설계 간의 선택에 일반적으로 영향을 미치는 요인은 다음과 같다:
- 프레임의 성격과 품질
- 프레임 내 단위에 대한 보조 정보의 가용성
- 정확도 요구사항 및 정확도 측정의 필요성
- 표본의 상세 분석 여부
- 비용/운영상의 고려사항
단순 무작위 표본추출
주어진 크기의 단순 무작위 표본(SRS)에서는 표본 프레임의 모든 부분집합이 선택될 확률이 동일하다. 따라서 프레임의 각 요소는 동일한 선택 확률을 가지며, 프레임은 세분화되거나 분할되지 않는다. 또한 주어진 임의의 요소 쌍은 다른 어떤 쌍과도 동일한 선택 확률을 가진다(세 요소 조합 등도 마찬가지이다). 이는 편향을 최소화하고 결과 분석을 단순화한다. 특히 표본 내 개별 결과 간의 분산은 전체 모집단의 분산을 잘 나타내는 지표가 되므로, 결과의 정확도를 비교적 쉽게 추정할 수 있다.
단순 무작위 표본추출은 선택의 무작위성으로 인해 모집단의 구성을 반영하지 못하는 표본이 생성될 수 있으므로 표본추출 오류에 취약할 수 있다. 예를 들어, 특정 국가에서 10명을 단순 무작위 표본으로 추출하면 평균적으로 남성 5명과 여성 5명이 나오지만, 실제 시행에서는 한쪽 성별이 과대 대표되고 다른 쪽이 과소 대표될 가능성이 높다. 체계적 표본추출과 층화 표본추출 기법은 "모집단에 대한 정보를 활용"하여 보다 "대표적인" 표본을 선택함으로써 이 문제를 극복하고자 한다.
또한, 대규모 목표 모집단에서 표본을 추출할 때 단순 무작위 표본추출은 번거롭고 지루할 수 있다. 경우에 따라 연구자들은 모집단의 하위 집단에 특화된 연구 질문에 관심을 갖는다. 예를 들어, 연구자들은 직무 수행 능력의 예측 변수로서 인지 능력이 인종 집단 간에 동일하게 적용되는지 조사하는 데 관심을 가질 수 있다. 단순 무작위 표본추출은 모집단의 하위 표본을 제공하지 않으므로 이러한 상황에서 연구자의 필요를 충족시킬 수 없으며, 층화 표본추출과 같은 다른 표본추출 전략을 대신 사용할 수 있다.
체계적 표본추출
체계적 표본추출(간격 표본추출이라고도 함)은 연구 모집단을 특정 순서 체계에 따라 정렬한 다음, 그 정렬된 목록에서 일정한 간격으로 요소를 선택하는 방법이다. 체계적 표본추출은 무작위 시작점에서 출발하여 이후 매 k번째 요소를 선택하는 방식으로 진행된다. 이 경우 k=(모집단 크기/표본 크기)이다. 시작점이 자동으로 목록의 첫 번째가 아니라 목록의 첫 번째부터 k번째 요소 사이에서 무작위로 선택되는 것이 중요하다. 간단한 예로 전화번호부에서 매 10번째 이름을 선택하는 것이 있다('매 10번째' 표본, '10 건너뛰기 표본추출'이라고도 한다).
시작점이 무작위화되는 한 체계적 표본추출은 확률 표본추출의 한 유형이다. 실행이 용이하며, 목록이 정렬된 변수가 관심 변수와 상관관계가 있는 경우 유도되는 층화가 효율적일 수 있다. '매 10번째' 표본추출은 데이터베이스에서 효율적으로 표본을 추출하는 데 특히 유용하다.
예를 들어, 빈곤 지역(1번 집)에서 시작하여 고급 주거 지역(1000번 집)에서 끝나는 긴 거리에서 사람들을 표본추출하고자 한다고 가정하자. 이 거리에서 주소를 단순 무작위로 선택하면 고급 지역에서 너무 많이, 저소득 지역에서 너무 적게 선택되거나(또는 그 반대) 비대표적인 표본이 쉽게 만들어질 수 있다. 거리를 따라 매 10번째 집 번호를 선택하면(예를 들어) 표본이 거리 전체에 고르게 분포되어 이 모든 지역을 대표하게 된다. (항상 1번 집에서 시작하여 991번 집에서 끝나면 표본이 저소득 지역 쪽으로 약간 편향되지만, 1번과 10번 사이에서 무작위로 시작점을 선택하면 이 편향이 제거된다.)
그러나 체계적 표본추출은 목록의 주기성에 특히 취약하다. 주기성이 존재하고 그 주기가 사용된 간격의 배수이거나 약수인 경우, 표본이 전체 모집단을 대표하지 못할 가능성이 특히 높아져 단순 무작위 표본추출보다 정확도가 떨어지게 된다.
예를 들어, 홀수 번호 집은 모두 도로의 북쪽(고급) 편에 있고, 짝수 번호 집은 모두 남쪽(저렴한) 편에 있는 거리를 생각해 보자. 위에서 설명한 표본추출 방식으로는 대표적인 표본을 얻는 것이 불가능하다. 표본추출된 집들이 홀수 번호의 고급 쪽에서 모두 나오거나, 짝수 번호의 저렴한 쪽에서 모두 나오게 되며, 연구자가 이 편향을 사전에 알고 양쪽을 오가도록 보장하는 건너뛰기 값(홀수 건너뛰기)을 사용하여 이를 피하지 않는 한 그러하다.
체계적 표본추출의 또 다른 단점은 SRS보다 더 정확한 시나리오에서조차 이론적 특성상 그 정확도를 정량화하기 어렵다는 것이다. (위에서 제시된 체계적 표본추출의 두 예에서, 잠재적 표본추출 오류의 상당 부분은 인접한 집들 간의 변동에 기인하지만, 이 방법은 인접한 두 집을 절대 선택하지 않으므로 표본이 그 변동에 대한 정보를 제공하지 못한다.)
위에서 설명한 바와 같이 체계적 표본추출은 모든 요소가 동일한 선택 확률을 가지므로(주어진 예에서 10분의 1) EPS 방법이다. 그러나 같은 크기의 서로 다른 부분집합이 서로 다른 선택 확률을 가지므로 '단순 무작위 표본추출'은 아니다. 예를 들어 집합 {4,14,24,...,994}는 10분의 1의 선택 확률을 가지지만, 집합 {4,13,24,34,...}은 선택 확률이 0이다.
체계적 표본추출은 비EPS 접근법으로도 적용할 수 있다. 예시는 아래의 PPS 표본 논의를 참조하라.
층화 표본추출
모집단이 여러 구분된 범주를 포함할 때, 프레임을 이러한 범주별로 별도의 "층"으로 조직할 수 있다. 그런 다음 각 층은 독립적인 하위 모집단으로서 표본추출되며, 그중에서 개별 요소를 무작위로 선택할 수 있다. 이 무작위 선택(또는 표본)의 크기 대 모집단 크기의 비율을 표본추출 비율이라 한다.[^1] 데이터는 목표 변수에 대해 층화되고 각 층에서 표본이 추출되어 희소한 목표 범주가 표본에서 더 많이 대표된다. 그런 다음 이 편향된 표본으로 모형이 구축된다. 전체적으로 더 작은 표본 크기를 취하더라도, 무작위 표본과 비교하여 선택 기반 표본을 사용하면 입력 변수가 목표에 미치는 효과를 더 정밀하게 추정할 수 있는 경우가 많다. 결과는 일반적으로 과대 표본추출을 보정하기 위해 조정되어야 한다.
크기 비례 확률 표본추출
경우에 따라 표본 설계자는 모집단의 각 요소에 대해 관심 변수와 상관관계가 있다고 여겨지는 "보조 변수" 또는 "크기 측정값"에 접근할 수 있다. 이러한 데이터는 표본 설계의 정확도를 향상시키는 데 사용될 수 있다. 한 가지 방법은 위에서 논의한 바와 같이 보조 변수를 층화의 기초로 사용하는 것이다.
또 다른 방법은 크기 비례 확률('PPS') 표본추출로, 각 요소의 선택 확률이 최대 1까지 크기 측정값에 비례하도록 설정된다. 단순 PPS 설계에서는 이러한 선택 확률을 포아송 표본추출의 기초로 사용할 수 있다. 그러나 이는 표본 크기가 가변적이라는 단점이 있으며, 선택의 우연한 변동으로 인해 모집단의 서로 다른 부분이 여전히 과대 또는 과소 대표될 수 있다.
체계적 표본추출 이론을 사용하여 크기 비례 확률 표본을 만들 수 있다. 이는 크기 변수 내의 각 개수를 하나의 표본추출 단위로 취급하여 수행된다. 그런 다음 크기 변수 내의 이 개수들 사이에서 균일한 간격으로 선택하여 표본을 식별한다. 이 방법은 감사나 법의학적 표본추출의 경우 PPS-순차적 또는 화폐 단위 표본추출이라 불리기도 한다.
예시: 학생 수가 각각 150, 180, 200, 220, 260, 490명인 6개 학교(총 1500명)가 있고, 학생 수를 기준으로 크기 3의 PPS 표본을 사용하고자 한다고 가정하자. 이를 위해 첫 번째 학교에 1~150번, 두 번째 학교에 151~330번(= 150 + 180), 세 번째 학교에 331~530번 등으로 마지막 학교(1011~1500번)까지 번호를 배정할 수 있다. 그런 다음 1과 500(= 1500/3) 사이에서 무작위 시작점을 생성하고 500의 배수로 학교 모집단을 세어 나간다. 무작위 시작점이 137이라면, 137번, 637번, 1137번이 배정된 학교, 즉 첫 번째, 네 번째, 여섯 번째 학교를 선택하게 된다.
PPS 접근법은 모집단 추정치에 가장 큰 영향을 미치는 대형 요소에 표본을 집중시킴으로써 주어진 표본 크기에 대한 정확도를 향상시킬 수 있다. PPS 표본추출은 요소 크기가 크게 다르고 보조 정보가 자주 이용 가능한 기업 조사에서 흔히 사용된다. 예를 들어, 호텔에서의 투숙 일수를 측정하려는 조사에서 각 호텔의 객실 수를 보조 변수로 사용할 수 있다. 경우에 따라 보다 최신의 추정치를 산출하려 할 때 관심 변수의 과거 측정값을 보조 변수로 사용할 수 있다.[^2]
군집 표본추출
때로는 응답자를 집단('군집')으로 선택하는 것이 더 비용 효율적이다. 표본추출은 종종 지역별 또는 시간대별로 군집화된다(거의 모든 표본은 어떤 의미에서 시간적으로 '군집화'되어 있지만, 분석에서 이를 고려하는 경우는 드물다). 예를 들어, 한 도시 내 가구를 조사한다면 100개의 도시 블록을 선택한 다음 선택된 블록 내 모든 가구를 면접하는 방식을 택할 수 있다.
군집화는 이동 및 행정 비용을 줄일 수 있다. 위의 예에서 면접자는 한 블록 내 여러 가구를 방문하기 위해 한 번만 이동하면 되며, 각 가구마다 다른 블록으로 운전할 필요가 없다.
또한 이는 목표 모집단의 모든 요소를 나열하는 표본 프레임이 필요하지 않다는 것을 의미한다. 대신 군집 수준 프레임에서 군집을 선택할 수 있으며, 요소 수준 프레임은 선택된 군집에 대해서만 작성하면 된다. 위의 예에서 표본추출에는 초기 선택을 위한 블록 수준 도시 지도만 필요하고, 이후 선택된 100개 블록의 가구 수준 지도만 필요하며, 도시 전체의 가구 수준 지도는 필요하지 않다.
군집 표본추출(군집화 표본추출이라고도 함)은 일반적으로 군집 간 차이가 군집 내 변동에 비해 어떠한가에 따라 표본 추정치의 변동성을 단순 무작위 표본추출보다 증가시킨다. 이러한 이유로 군집 표본추출은 동일한 수준의 정확도를 달성하기 위해 SRS보다 더 큰 표본이 필요하지만, 군집화로 인한 비용 절감이 이를 더 저렴한 방법으로 만들 수 있다.
군집 표본추출은 일반적으로 다단계 표본추출로 구현된다. 이는 두 개 이상의 단위 수준이 서로 내포되어 있는 복잡한 형태의 군집 표본추출이다. 첫 번째 단계는 표본추출에 사용할 군집을 구성하는 것이다. 두 번째 단계에서는 각 군집에서 1차 단위의 표본이 무작위로 선택된다(선택된 모든 군집에 포함된 모든 단위를 사용하는 것이 아니라). 이후 단계에서는 선택된 각 군집 내에서 추가적인 단위 표본이 선택되며, 이런 식으로 계속된다. 이 절차의 마지막 단계에서 선택된 모든 최종 단위(예를 들어 개인)가 조사된다. 따라서 이 기법은 본질적으로 이전 무작위 표본의 무작위 하위 표본을 추출하는 과정이다.
다단계 표본추출은 완전한 모집단 목록을 구축해야 하는 경우(다른 표본추출 방법을 적용하기 전에) 표본추출 비용을 상당히 줄일 수 있다. 선택되지 않은 군집을 기술하는 작업을 제거함으로써 다단계 표본추출은 전통적인 군집 표본추출과 관련된 큰 비용을 줄일 수 있다.[^2] 그러나 각 표본이 전체 모집단을 완전히 대표하지 못할 수 있다.
할당 표본추출
할당 표본추출에서는 층화 표본추출에서와 마찬가지로 모집단을 먼저 상호 배타적인 하위 집단으로 분류한다. 그런 다음 지정된 비율에 따라 각 분류에서 대상 또는 단위를 선택하기 위해 판단을 사용한다. 예를 들어, 면접자에게 45세에서 60세 사이의 여성 200명과 남성 300명을 표본추출하라고 지시할 수 있다.
이 기법을 비확률 표본추출로 만드는 것은 바로 이 두 번째 단계이다. 할당 표본추출에서 표본의 선택은 비무작위적이다. 예를 들어, 면접자는 가장 협조적으로 보이는 사람을 면접하려는 경향이 있을 수 있다. 문제는 모든 사람이 선택될 기회를 얻지 못하기 때문에 이러한 표본이 편향될 수 있다는 것이다. 이 무작위 요소가 가장 큰 약점이며, 할당 대 확률 표본추출은 수년간 논쟁의 대상이 되어 왔다.
미니맥스 표본추출
표본추출 비율이 모집단 통계를 따르지 않는 불균형 데이터셋에서는 미니맥스 표본추출이라는 보수적인 방법으로 데이터셋을 재표본추출할 수 있다. 미니맥스 표본추출은 값이 0.5로 증명된 Anderson 미니맥스 비율에서 유래한다: 이진 분류에서 클래스별 표본 크기는 동일하게 선택되어야 한다. 이 비율은 가우스 분포를 가진 LDA 분류기의 가정 하에서만 미니맥스 비율로 증명될 수 있다. 미니맥스 표본추출의 개념은 최근 클래스별 스마트 분류기라 불리는 일반적인 분류 규칙 클래스에 대해 개발되었다. 이 경우, 클래스 사전 확률에 대한 모든 가능한 모집단 통계에 걸쳐 최악의 경우 분류기 오류가 최선이 되도록 클래스의 표본추출 비율이 선택된다.[^1] 광고 대상 모집단은 소셜 미디어가 제공하는 도구를 사용하여 위치, 나이, 성별, 소득, 직업, 교육 수준 또는 관심사와 같은 특성에 따라 선택될 수 있다. 광고에는 연구에 대한 메시지와 설문조사 링크가 포함될 수 있다. 링크를 따라가 설문조사를 완료한 후, 자원자는 표본 모집단에 포함될 데이터를 제출한다. 이 방법은 전 세계 모집단에 도달할 수 있지만 캠페인 예산에 의해 제한된다. 초대된 모집단 외부의 자원자도 표본에 포함될 수 있다.
이 표본에서 일반화하기는 어려운데, 전체 모집단을 대표하지 못할 수 있기 때문이다. 종종 자원자들은 설문조사의 주요 주제에 강한 관심을 가지고 있다.
선 절단 표본추출
선 절단 표본추출은 "횡단선"이라 불리는 선택된 선분이 요소와 교차하는 경우 해당 요소를 표본추출하는 방식으로 특정 영역 내 요소를 표본추출하는 방법이다.
패널 표본추출
패널 표본추출은 먼저 무작위 표본추출 방법을 통해 참가자 집단을 선택한 다음, 일정 기간에 걸쳐 해당 집단에게 (잠재적으로 동일한) 정보를 여러 번 요청하는 방법이다. 따라서 각 참가자는 두 번 이상의 시점에서 면접을 받으며, 각 데이터 수집 기간을 "웨이브"라고 한다. 이 방법은 1938년 사회학자 Paul Lazarsfeld가 정치 캠페인을 연구하기 위한 수단으로 개발하였다.[^17] 이 종단적 표본추출 방법은 만성 질환에서 직무 스트레스, 주간 식비 지출에 이르기까지 모집단의 변화를 추정할 수 있게 해준다. 패널 표본추출은 또한 연령에 따른 개인 내 건강 변화에 대해 연구자들에게 정보를 제공하거나 배우자 간 상호작용과 같은 연속 종속 변수의 변화를 설명하는 데 사용될 수 있다.[^3] 패널 데이터 분석을 위해 MANOVA, 성장 곡선, 지연 효과를 포함한 구조방정식 모형 등 여러 방법이 제안되었다.
눈덩이 표본추출
눈덩이 표본추출은 소수의 초기 응답자 집단을 찾고 이들을 통해 더 많은 응답자를 모집하는 방법이다. 모집단이 은폐되어 있거나 열거하기 어려운 경우에 특히 유용하다.
이론적 표본추출
이론적 표본추출[^4]은 해당 분야에 대한 더 깊은 이해를 발전시키거나 이론을 개발하는 것을 목표로, 지금까지 수집된 데이터의 결과를 기반으로 표본을 선택하는 것이다. 먼저 일반적인 경향을 조사하기 위해 초기의 일반적 표본을 수집하며, 이후 표본추출은 현상이 실제로 관찰될 가능성을 극대화하기 위해 극단적이거나 매우 구체적인 사례를 선택하는 것으로 구성될 수 있다.
능동적 표본추출
능동적 표본추출에서는 기계 학습 알고리즘을 훈련시키는 데 사용되는 표본이 능동적으로 선택되며, 능동 학습(기계 학습)과도 비교된다.
판단 선택
판단 표본추출은 전문가 또는 목적적 표본추출이라고도 하며, 전문가의 의견에 기반하여 표본을 선택하는 비무작위 표본추출의 한 유형으로, 전문가가 제공하는 정보의 가치에 따라 참가자를 선택할 수 있다.
임의적 표본추출
임의적 표본추출은 인간의 판단을 사용하여 무작위성을 모방하는 개념을 말한다. 표본이 수작업으로 선택되지만, 표본 선택에 의식적 편향이 존재하지 않도록 보장하는 것이 목표이나, 선택 편향으로 인해 종종 실패한다.[^18] 임의적 표본추출은 일반적으로 다른 표본추출 방법을 수행할 도구나 역량이 없을 때 편의상 선택된다.
이러한 표본의 주요 약점은 전체 모집단의 특성이 아닌 모집단의 일부만을 대표하는 경우가 많다는 것이다. 이러한 불균형한 대표성 때문에 임의적 표본추출의 결과는 종종 편향된다.[^19]
선정된 단위의 대체
표본 추출 방식은 비복원 ('WOR' – 동일한 표본에서 하나의 요소가 두 번 이상 선택될 수 없음) 또는 복원 ('WR' – 하나의 요소가 하나의 표본에서 여러 번 나타날 수 있음)으로 나뉠 수 있다. 예를 들어, 물고기를 잡아 측정한 후 표본 추출을 계속하기 전에 즉시 물에 돌려보내는 경우, 같은 물고기를 두 번 이상 잡아 측정할 수 있으므로 이는 복원 설계이다. 그러나 물고기를 물에 돌려보내지 않거나 잡은 후 표식을 달아 방류하는 경우, 이는 비복원 설계가 된다.
표본 크기 결정
공식, 표, 검정력 함수 차트는 표본 크기를 결정하는 데 널리 알려진 접근법이다.
표본 크기 표 사용 단계:
- 관심 있는 효과 크기, α, β를 가정한다.
- 표본 크기 표를 확인한다[^20]
선택한 α에 해당하는 표를 선택한다
원하는 검정력에 해당하는 행을 찾는다
추정된 효과 크기에 해당하는 열을 찾는다.
열과 행의 교차점이 필요한 최소 표본 크기이다.
표본 추출과 데이터 수집
올바른 데이터 수집에는 다음이 포함된다:
- 정의된 표본 추출 과정을 따르기
- 데이터를 시간 순서대로 유지하기
- 의견 및 기타 맥락적 사건을 기록하기
- 무응답을 기록하기
표본 추출의 응용
표본 추출은 더 큰 데이터 집합 내에서 적절한 데이터 포인트를 선택하여 전체 모집단의 특성을 추정할 수 있게 한다. 예를 들어, 매일 약 6억 개의 트윗이 생성된다. 하루 동안 논의되는 주제를 파악하기 위해 모든 트윗을 살펴볼 필요는 없으며, 각 주제에 대한 감성을 파악하기 위해 모든 트윗을 살펴볼 필요도 없다. 트위터 데이터 표본 추출을 위한 이론적 공식이 개발된 바 있다.[^21]
제조업에서는 음향, 진동, 압력, 전류, 전압, 제어기 데이터 등 다양한 유형의 감각 데이터가 짧은 시간 간격으로 수집된다. 가동 중단 시간을 예측하기 위해 모든 데이터를 살펴볼 필요는 없으며 표본만으로도 충분할 수 있다.
표본 조사의 오류
조사 결과에는 일반적으로 어느 정도의 오류가 수반된다. 총 오류는 표본 오류와 비표본 오류로 분류할 수 있다. 여기서 "오류"라는 용어는 무작위 오류뿐만 아니라 체계적 편향도 포함한다.
표본 오류와 편향
표본 오류와 편향은 표본 설계에 의해 유발된다. 여기에는 다음이 포함된다:
- 선택 편향: 실제 선택 확률이 결과 계산 시 가정된 확률과 다를 때 발생한다.
- 무작위 표본 오류: 표본의 요소가 무작위로 선택됨에 따라 결과에 나타나는 무작위 변동이다.
비표본 오류
비표본 오류는 데이터 수집, 처리 또는 표본 설계의 문제로 인해 발생하며, 최종 조사 추정치에 영향을 미칠 수 있는 기타 오류이다. 이러한 오류에는 다음이 포함될 수 있다:
- 과잉 포함: 모집단 외부의 데이터를 포함하는 것
- 과소 포함: 표본 프레임이 모집단의 요소를 포함하지 못하는 것
- 측정 오류: 예를 들어, 응답자가 질문을 잘못 이해하거나 답변하기 어려워하는 경우
- 처리 오류: 데이터 코딩 시의 실수
- 무응답 또는 참여 편향: 선정된 모든 개인으로부터 완전한 데이터를 확보하지 못하는 것 표본 추출 후, 이후 분석에 어떠한 차이가 미칠 수 있는 영향을 연구하기 위해, 의도된 과정이 아닌 실제로 수행된 표본 추출 과정에 대한 검토가 이루어진다.
특히 무응답 문제가 중요하다. 무응답에는 두 가지 주요 유형이 있다:[^22]
- 단위 무응답 (조사의 어떤 부분도 완료하지 않는 것)
- 항목 무응답 (조사에 제출하거나 참여하였으나 조사의 하나 이상의 구성 요소/질문을 완료하지 못하는 것)
표본 조사에서, 표본의 일부로 선정된 많은 개인이 참여를 꺼리거나, 참여할 시간이 없거나(기회비용),[^23] 조사 관리자가 이들에게 연락하지 못할 수 있다. 이 경우 응답자와 무응답자 간에 차이가 발생할 위험이 있으며, 이는 모집단 모수의 편향된 추정으로 이어진다. 이는 흔히 조사 설계 개선, 인센티브 제공, 그리고 무응답자에게 반복적으로 연락을 시도하고 나머지 프레임과의 유사점 및 차이점을 파악하는 후속 연구를 통해 해결된다.[^24] 이러한 영향은 데이터에 가중치를 부여하거나(모집단 기준이 이용 가능한 경우) 다른 질문에 대한 응답을 바탕으로 데이터를 대체함으로써 완화할 수도 있다. 무응답은 특히 인터넷 표본 추출에서 문제가 된다. 이 문제의 원인으로는 부적절하게 설계된 조사, 과다 조사(또는 조사 피로),[^3][^25] 그리고 잠재적 참여자가 더 이상 사용하지 않거나 정기적으로 확인하지 않는 여러 이메일 주소를 보유하고 있다는 사실 등이 있다.
조사 가중치
많은 상황에서, 표본 비율은 층에 따라 달라질 수 있으며, 모집단을 올바르게 대표하기 위해 데이터에 가중치를 부여해야 한다. 예를 들어, 영국 내 개인에 대한 단순 무작위 표본은 표본 추출 비용이 과도하게 높은 스코틀랜드 외딴 섬의 주민을 포함하지 못할 수 있다. 더 저렴한 방법은 도시 층과 농촌 층으로 나눈 층화 표본을 사용하는 것이다. 농촌 표본은 표본에서 과소 대표될 수 있지만, 분석에서 이를 보정하기 위해 적절히 가중치를 높일 수 있다.
더 일반적으로, 표본 설계가 각 개인에게 동등한 선택 기회를 부여하지 않는 경우 데이터에는 보통 가중치를 부여해야 한다. 예를 들어, 가구의 선택 확률은 동일하지만 각 가구에서 한 사람만 면접하는 경우, 대가구의 구성원은 면접 대상으로 선택될 확률이 낮아진다. 이는 조사 가중치를 사용하여 보정할 수 있다. 마찬가지로, 전화선이 두 개 이상인 가구는 무작위 전화번호 다이얼링 표본에서 선택될 확률이 더 높으며, 가중치로 이를 조정할 수 있다.
가중치는 무응답 보정 등 다른 목적에도 활용될 수 있다.
무작위 표본 생성 방법
- 난수표
- 의사난수 생성기를 위한 수학적 알고리즘
- 동전, 카드 또는 ERNIE와 같은 정교한 장치 등 물리적 무작위화 장치
같이 보기
- 자료 수집
- 설계 효과
- 추정 이론
- Gy의 표본추출 이론
- 독일 전차 문제
- Horvitz–Thompson 추정량
- 라틴 초입방체 표본추출
- 공식 통계
- 비율 추정량
- 반복 (통계학)
- 무작위 표본추출 메커니즘
- 재표본추출 (통계학)
- 의사난수 표본추출
- 표본 크기 결정
- 표본추출 (사례 연구)
- 표본추출 편향
- 표본 분포
- 표본추출 오차
- 추첨제
- 조사 표본추출
주석
Groves 등의 교과서는 설문지 개발(인지심리학에 기반한)에 관한 최근 문헌을 포함하여 조사 방법론의 개요를 제공한다:
- Robert Groves 등. 조사 방법론 (2010년 제2판 [2004]) .
나머지 서적들은 조사 표본추출의 통계 이론에 초점을 맞추며, 다음 교과서에서 논의된 기초 통계학에 대한 일정한 지식을 필요로 한다:
- David S. Moore and George P. McCabe (2005년 2월). "통계학 실습 입문" (제5판). W.H. Freeman & Company. .
- Scheaffer 등의 입문서는 고등학교 대수학의 이차방정식을 사용한다:
- Scheaffer, Richard L., William Mendenhal and R. Lyman Ott. 기초 조사 표본추출, 제5판. Belmont: Duxbury Press, 1996. Lohr, Särndal 등, 그리고 Cochran의 저서에는 보다 높은 수준의 수리통계학이 필요하다:[^26]
-
-
- Deming과 Kish의 역사적으로 중요한 저서들은 사회과학자들에게(특히 미국 인구조사와 미시간 대학교 사회조사연구소에 관하여) 여전히 귀중한 통찰을 제공한다:
-
-
- Kish, Leslie (1995) 조사 표본추출, Wiley,
더 읽을거리
- Singh, G N, Jaiswal, A. K., and Pandey A. K. (2021), 두 시점 연속 표본추출에서 결측 자료를 위한 개선된 대체 방법, Communications in Statistics: Theory and Methods. DOI:10.1080/03610926.2021.1944211
- Chambers, R L, and Skinner, C J (editors) (2003), 조사 자료 분석, Wiley,
- Deming, W. Edwards (1975) 행동의 기초로서의 확률에 대하여, The American Statistician, 29(4), pp. 146–152.
- Gy, P (2012) 이질적 및 동적 물질 체계의 표본추출: 이질성, 표본추출 및 균질화의 이론, Elsevier Science,
- Korn, E.L., and Graubard, B.I. (1999) 건강 조사 분석, Wiley,
- Lucas, Samuel R. (2012). "존재 증명을 넘어서: 존재론적 조건, 인식론적 함의, 그리고 심층 면접 연구."], Quality & Quantity, .
- Stuart, Alan (1962) 과학적 표본추출의 기본 개념, Hafner Publishing Company, New York
-
- (144페이지에 T. M. F. Smith의 초상)
-
-
-
표준
-
-
ISO
- ISO 2859 시리즈
- ISO 3951 시리즈
ASTM
- ASTM E105 재료의 확률 표본추출에 관한 표준 실무
- ASTM E122 로트 또는 공정의 특성 평균을 지정된 허용 오차로 추정하기 위한 표본 크기 산출에 관한 표준 실무
- ASTM E141 확률 표본추출 결과에 기반한 증거 수용에 관한 표준 실무
- ASTM E1402 표본추출 관련 표준 용어
- ASTM E1994 공정 지향 AOQL 및 LTPD 표본추출 계획 사용에 관한 표준 실무
- ASTM E2234 AQL로 색인된 속성별 제품 흐름의 표본추출에 관한 표준 실무
ANSI, ASQ
- ANSI/ASQ Z1.4
미국 연방 및 군사 표준
- MIL-STD-105
- MIL-STD-1916
외부 링크
참고 문헌
[^1]: Scott, A.J.. 사례-대조 또는 선택 기반 표본추출에서의 로지스틱 모형 적합
[^2]: 표본추출: 설계와 분석
[^3]: Groves 외. ''조사 방법론''
[^4]: 웹 인용 url = http://www.fao.org/ag/humannutrition/32428-0613f516cb07eade922c8c19b4d0452c0.pdf 제목 = 표본추출 방법의 예시
[^5]: Anderson, Theodore. 다변량 분석에 의한 분류
[^6]: Shahrokh Esfahani, Mohammad. 분리 표본추출이 분류 정확도에 미치는 영향
[^7]: 표본추출과 평가. MEASURE Evaluation
[^8]: Salant, Priscilla, I. Dillman, and A. Don. ''자체 조사를 수행하는 방법''. No. 300.723 S3. 1994.
[^9]: Seneta, E.. 러시아 표본조사 역사 개관. (1985)
[^10]: [[David S. Moore]]과 [[George P. McCabe]]. "''통계학 실습 입문''".
[^12]: 표본 개표 - 싱가포르 선거관리국
[^13]: Ho, Timothy. 2023년 대통령 선거: 오늘 밤 표본 개표는 얼마나 정확할까?. (2023년 9월 1일)
[^14]: 표본추출: 설계와 분석
[^15]: 모형 보조 조사 표본추출
[^16]: 기초 조사 표본추출
[^17]: Lazarsfeld, P., & Fiske, M. (1938). 여론 측정의 새로운 도구로서의 "패널". The Public Opinion Quarterly, 2(4), 596–612.
[^18]: 무작위 표본추출 정의. (2024년 1월 7일)
[^19]: IRS 통계적 표본추출 편람. 미국: 재무부, 국세청
[^20]: Cohen, 1988
[^21]: 학술대회 인용 저자=Deepan Palguna 저자2=Vikas Joshi 저자3=Venkatesan Chakaravarthy 저자4=Ravi Kothari 저자5=L. V. Subramaniam 제목=트위터의 표본추출 알고리즘 분석 학술지
[^22]: Berinsky, A. J. (2008). "조사 무응답". 수록: W. Donsbach & M. W. Traugott (편), ''공론 조사 세이지 핸드북'' (pp. 309–321). Thousand Oaks, CA: Sage Publications.
[^23]: Dillman, D.A., Smyth, J.D., & Christian, L. M. (2009). 인터넷, 우편, 혼합 모드 조사: 맞춤형 설계 방법. San Francisco: Jossey-Bass.
[^24]: Vehovar, V., Batagelj, Z., Manfreda, K.L., & Zaletel, M. (2002). "웹 조사에서의 무응답". 수록: R. M. Groves, D. A. Dillman, J. L. Eltinge, & R. J. A. Little (편), ''조사 무응답'' (pp. 229
[^25]: 서적 인용 last1 = Porter last2 = Whitcomb last3 = Weitzer 장 = 학생 대상 다중 조사와 조사 피로 editor1-last = Porter editor1-first = Stephen R 제목 = 극복
[^26]: Cochran, William G.. 표본추출 기법, 제3판. John Wiley & Sons. (1977-01-01)
관련 인사이트

공장의 뇌는 어떻게 생겼는가 — 제조운영 AI 아키텍처 해부
지식관리, 업무자동화, 의사결정지원 — 따로 보면 다 있던 것들입니다. 제조 AI의 진짜 차이는 이 셋이 순환하면서 '우리 공장만의 지능'을 만든다는 데 있습니다.

그 30분을 18년 동안 매일 반복했습니다 — 품질팀장이 본 AI Agent
18년차 품질팀장이 매일 아침 30분씩 반복하던 데이터 분석을 AI Agent가 3분 만에 해냈습니다. 챗봇과는 완전히 다른 물건 — 직접 시스템에 접근해서 데이터를 꺼내고 분석하는 AI의 현장 도입기.

ERP 20년, 나는 왜 AI를 얹기로 했나
ERP 20년차 제조IT본부장의 고백: 3,200만 행의 데이터가 잠들어 있었다. ERP를 바꾸지 않고 AI를 얹자, 일주일 걸리던 불량 분석이 수 초로 줄었다.