개념 드리프트
예측 분석, 데이터 과학, 기계 학습 및 관련 분야에서 개념 드리프트 또는 드리프트는 데이터 모델을 무효화하는 데이터의 변화를 의미한다. 이는 모델이 예측하려는 대상 변수의 통계적 속성이 시간이 지남에 따라 예측하지 못한 방식으로 변할 때 발생한다. 이로 인해 시간이 경과할수록 예측의 정확도가 떨어지는 문제가 발생한다. 드리프트 탐지와 드리프트 적응은 동적으로 변화하는 데이터와 데이터 모델을 다루는 분야에서 매우 중요하다.
예측 모델의 성능 저하
기계 학습과 예측 분석에서 이러한 드리프트 현상을 개념 드리프트라고 한다. 기계 학습에서 데이터 모델의 일반적인 요소는 실제 데이터의 확률 분포와 같은 통계적 속성이다. 이러한 속성이 훈련 데이터 세트의 통계적 속성에서 벗어나면, 드리프트가 해결되지 않을 경우 학습된 예측이 무효화될 수 있다.[^6][^7][^8][^9]
데이터 구성의 변질
또 다른 중요한 분야는 소프트웨어 공학으로, 데이터 충실도에 영향을 미치는 세 가지 유형의 데이터 드리프트를 식별할 수 있다. 소프트웨어 환경의 변화("인프라 드리프트")는 소프트웨어 인프라 구성을 무효화할 수 있다. "구조적 드리프트"는 데이터 스키마가 변경될 때 발생하며, 이는 데이터베이스를 무효화할 수 있다. "의미적 드리프트"는 구조는 변하지 않으면서 데이터의 의미가 변하는 것이다. 많은 경우 이는 복잡한 애플리케이션에서 다수의 독립적인 개발자들이 소프트웨어 시스템의 다른 영역에 미치는 영향을 제대로 인식하지 못한 채 변경 사항을 도입할 때 발생할 수 있다.[^1][^2]
많은 애플리케이션 시스템에서 운영 대상 데이터의 특성은 비즈니스 모델의 변경, 시스템 업데이트, 시스템이 운영되는 플랫폼의 전환 등 다양한 이유로 변화할 수 있다.[^3]
"데이터 드리프트"는 데이터베이스의 여러 복제본 간 데이터 요소의 불일치를 의미하기도 한다. 그 원인을 파악하기 어려울 수 있다. 간단한 드리프트 탐지 방법은 정기적으로 체크섬을 실행하는 것이다. 그러나 해결책은 그리 쉽지 않을 수 있다.[^10]
사례
온라인 쇼핑몰에서 고객의 행동은 시간이 지남에 따라 변할 수 있다. 예를 들어, 주간 상품 매출을 예측해야 하고 만족스럽게 작동하는 예측 모델이 개발되었다고 가정하자. 이 모델은 광고비 지출, 진행 중인 프로모션 및 매출에 영향을 미칠 수 있는 기타 지표를 입력값으로 사용할 수 있다. 이 모델은 시간이 지남에 따라 점점 더 정확도가 떨어질 가능성이 높은데, 이것이 바로 개념 드리프트이다. 상품 매출 애플리케이션에서 개념 드리프트의 한 가지 원인은 계절성일 수 있으며, 이는 쇼핑 행동이 계절에 따라 변한다는 것을 의미한다. 예를 들어, 여름보다 겨울 연말 시즌에 매출이 더 높을 수 있다. 개념 드리프트는 일반적으로 데이터 세트를 구성하는 공변량이 대상 세트의 변동을 덜 정확하게 설명하기 시작할 때 발생한다 — 설명할 수 없는 교란 변수가 나타났을 수 있으며, 이로 인해 모델의 정확도가 시간이 지남에 따라 점진적으로 감소하게 된다. 일반적으로 프로덕션 이후 분석의 일환으로 상태 점검을 수행하고, 개념 드리프트의 징후가 나타나면 새로운 가정을 반영하여 모델을 재훈련하는 것이 권장된다.
가능한 해결책
개념 드리프트로 인한 예측 정확도의 저하를 방지하기 위해 반응적 및 추적 솔루션을 채택할 수 있다. 반응적 솔루션은 변화 감지 테스트[^11][^12]나 통계적 공정 관리의 관리도[^13]와 같은 트리거 메커니즘에 반응하여 모델을 재훈련시키며, 데이터 생성 과정의 통계적 변화로서 개념 드리프트를 명시적으로 감지한다. 개념 드리프트가 감지되면 현재 모델은 더 이상 최신 상태가 아니며, 예측 정확도를 회복하기 위해 새로운 모델로 교체해야 한다.[^14][^15] 반응적 접근법의 단점은 변화가 감지될 때까지 성능이 저하될 수 있다는 것이다. 추적 솔루션은 모델을 지속적으로 업데이트하여 개념의 변화를 추적하고자 한다. 이를 달성하기 위한 방법에는 온라인 기계 학습, 가장 최근에 관찰된 샘플에 대한 빈번한 재훈련,[^16] 그리고 가장 최근 배치의 예제로 새로운 분류기를 훈련시켜 앙상블에서 가장 오래된 분류기를 교체하는 분류기 앙상블 유지 등이 있다.[^17]
맥락 정보가 이용 가능한 경우, 개념 드리프트의 원인을 더 잘 설명하는 데 사용할 수 있다. 예를 들어, 매출 예측 응용에서 개념 드리프트는 모델에 계절 정보를 추가함으로써 보상될 수 있다. 연중 시기에 대한 정보를 제공함으로써 모델의 저하 속도는 감소할 가능성이 있지만, 개념 드리프트가 완전히 제거될 가능성은 낮다. 이는 실제 쇼핑 행동이 어떤 정적이고 유한한 모델도 따르지 않기 때문이다. 쇼핑 행동에 영향을 미치는 새로운 요인이 언제든지 발생할 수 있으며, 알려진 요인의 영향이나 그 상호작용이 변할 수 있다.
개념 드리프트는 자연의 고정된 법칙에 의해 지배되지 않는 복잡한 현상에서는 피할 수 없다. 사회경제적 과정과 같이 인간 활동에서 발생하는 모든 과정, 그리고 생물학적 과정은 개념 드리프트를 경험할 가능성이 높다. 따라서 모든 모델의 주기적인 재훈련, 즉 갱신이 필요하다.
해결 방법
- DDM (드리프트 감지 방법): 시간에 따른 모델의 오류율을 모니터링하여 드리프트를 감지한다. 오류율이 설정된 임계값을 넘으면 경고 단계에 진입하고, 또 다른 임계값을 넘으면 드리프트 단계에 진입한다.
- EDDM (조기 드리프트 감지 방법): 오류율만이 아닌 두 오류 간의 평균 거리를 추적하여 DDM의 감지율을 개선한다.
- ADWIN (적응적 윈도잉): 최근 데이터의 윈도우를 동적으로 저장하고, 윈도우의 이전 데이터와 최근 데이터의 통계 간에 유의미한 변화가 감지되면 사용자에게 경고한다.
- KSWIN (콜모고로프-스미르노프 윈도잉): 콜모고로프-스미르노프 통계 검정에 기반하여 드리프트를 감지한다.[^4]
DDM 및 EDDM: 개념 드리프트 감지
- 진화하는 오류율을 추정하기 위해 순차적 오류 모니터링에 의존하는 온라인 지도 학습 방법이다. ADWIN 및 KSWIN: 윈도잉
- 데이터 스트림의 가장 최근 데이터의 부분 집합인 "윈도우"를 유지하며, 윈도우 전체에 걸쳐 통계적 차이를 확인한다.[^4]
보안 분야에서의 응용
개념 드리프트는 보안 분석, 특히 악성코드 및 침입 탐지에서 반복적으로 발생하는 문제이다. 이러한 시스템에서 모델은 과거 로그, 바이너리 또는 네트워크 트레이스를 기반으로 학습되는 경우가 많지만, 새로운 악성코드 패밀리, 난독화 기법 및 캠페인이 등장함에 따라 공격자의 행동은 시간이 지나면서 변화한다. 데이터가 더 이상 학습 데이터셋과 유사하지 않게 되면, 분류기나 이상 탐지기가 학습한 결정 경계가 현재의 위협 환경과 맞지 않게 되어 모델을 갱신하거나 교체하지 않는 한 탐지 성능이 저하될 수 있다.[^4][^18]
Windows 악성코드 탐지를 진화하는 데이터 스트림으로 모델링하고 시간이 경과함에 따라 성능이 어떻게 변화하는지 추적한 여러 연구가 있다.[^4] 이러한 연구들은 고정된 시간 창에서 학습된 분류기가 인접한 데이터에서는 좋은 성능을 보이지만, 수개월 또는 수년 후에 수집된 샘플로 평가하면 대량의 학습 데이터가 확보되어 있더라도 성능이 급격히 저하된다는 것을 보여준다.[^4] 이에 대응하기 위해 보안 시스템은 슬라이딩 또는 적응형 윈도우를 자주 사용하며, 이는 학습 데이터를 가장 최근 부분으로 제한하여 오래되고 관련성이 낮은 예시가 점진적으로 폐기되도록 한다. 또한 ADWIN 및 KSWIN과 같은 드리프트 탐지기를 사용하여 오류율이나 최근 관측값의 분포 변화를 모니터링하고, 들어오는 스트림의 통계가 과거와 크게 다를 때 이를 감지하여 재학습 또는 모델 교체를 유도한다.[^4][^19]
유사한 문제는 스팸 필터링, 사기 탐지 및 침입 탐지에서도 나타나며, 이러한 분야에서 공격자는 과거 데이터로 학습된 모델을 회피하기 위해 콘텐츠, 활동 패턴 또는 네트워크 행동을 변경한다. 이러한 환경에서 드리프트는 새로운 유형의 스팸이나 사기가 등장하면서 점진적으로 발생할 수도 있고, 공격 기법의 갑작스러운 전환 이후 급격하게 발생할 수도 있다. 효과를 유지하기 위한 일반적인 전략으로는 최근 레이블링된 예시로 모델을 갱신하는 것, 최신 데이터로 학습된 분류기에 더 높은 가중치를 부여하는 앙상블을 사용하는 것, 그리고 공격 수행 방식의 표면적 변화에 덜 민감한 특성을 설계하는 것이 있다.[^20]
보안을 위한 머신러닝 연구에서는 개념 드리프트를 평가 시 올바르게 처리하지 않으면 상당한 편향이 발생할 수 있다는 점도 밝혀졌다. 연구자들은 30개의 학습 기반 보안 시스템을 조사한 결과, 많은 탐지기가 짧은 기간이나 실험실 환경에서만 테스트되었음을 발견했다. 이는 시간적 상관관계, 비정상성, 그리고 실제 환경에서 공격이 변화하는 방식을 무시하는 것으로, 실제 운용 시 이러한 시스템이 실제보다 훨씬 더 효과적으로 보이게 만들 수 있다[^5]. 저자들은 시간 엿보기(time snooping)의 방법으로, 과거 데이터에서 작동해야 하는 모델을 학습할 때 최신 악성코드 샘플의 특성을 사용하거나, 전체 데이터셋에서 정규화 통계량이나 임베딩을 계산하는 것 등을 지적한다. 또한 현재의 위협에 맞게 모델을 학습시키지 못하는 오래된 벤치마크 데이터셋의 사용에 대해서도 언급한다[^5]. 연구자들은 인과적 순서를 유지하고, 미래 정보가 학습에 유출되지 않도록 하며, 보안 데이터가 시간과 공간 모두를 고려하여 보고된 성능이 실제 환경에서의 개념 드리프트 영향을 더 잘 반영하도록 하는 시간 인식 평가 프로토콜의 사용을 제안한다.[^5]
개념 드리프트, 개념 진화, 그리고 적대적 조작
개념 드리프트는 입력 특성과 해당 레이블 간의 관계가 시간이 지남에 따라 점진적으로 변화하는 것을 말한다. 간단한 예를 들어보자: 피싱 이메일이다. 과거의 공격은 "복권(lottery)"이라는 단어의 존재와 같은 두드러진 신호를 활용했지만, 최신 변종은 탐지를 회피하고 더 정당하게 보이기 위해 "복권이며 사기가 아닙니다(lottery and not scam)"와 같은 더 세련된 문구를 도입한다. 이는 개념 드리프트의 한 형태인데, 기저 클래스인 피싱 자체는 동일하게 유지되지만 이를 정의하는 특성 패턴이 공격자가 적응함에 따라 변화하기 때문이다. 그러나 개념 드리프트를 관련되어 있지만 본질적으로 다른 과제인 개념 진화와 구별하는 것이 중요하다. "개념 진화"는 모델이 한 번도 접하지 못한 특성 패턴을 가진 완전히 새로운 공격 패밀리가 등장할 때 발생한다. 모델은 학습 데이터에 존재하지 않았던 새로운 특성과 패턴에 노출된다. 다중 클래스 환경에서 이는 완전히 새로운 레이블이 도입됨을 의미한다. 이진 분류 환경(정상 대 악성)에서는 완전히 새로운 악성 패밀리가 도입되지만, 모델은 여전히 오래된 특성 패턴을 기반으로 예측을 시도한다. 이에 대한 한 가지 예로, 모델이 트로이 목마와 랜섬웨어 특성으로 학습되었지만 이후 암호화폐 채굴 악성코드가 등장한 경우를 들 수 있다. 레이블상으로는 여전히 "악성"이지만, 이는 모델에게 새로운 특성임을 의미한다. 개념 드리프트와 개념 진화는 공격자가 얼마나 빠르게 적응하고 사이버 방어 모델의 약점을 악용하기 위해 기법을 계속 발전시키는지를 정확히 보여준다. 공격자들은 페이로드, 통신 방법론, 심지어 의존하는 API까지 정기적으로 갱신한다. 이는 과거 데이터로만 학습된 모델이 갱신되거나 지속적으로 학습하도록 설계되지 않는 한 구식이 된다는 것을 의미한다. [^21]
이러한 행동 변화가 항상 자연적으로 발생하는 것은 아니며, 공격자가 의도적으로 도입할 수 있다. 개념 드리프트의 주요 원인은 적대적 공격인데, 공격자가 악성코드에 미세하고 정교하게 설계된 변경을 가하면 입력-레이블 관계에 영향을 미쳐 모델이 악성코드를 정상으로 잘못 분류하게 만들기 때문이다. 적대적 공격은 일반적으로 화이트박스와 블랙박스의 두 가지 설정으로 나뉜다. 화이트박스 설정에서 공격자는 아키텍처, 매개변수 및 기울기를 포함한 모델에 대한 완전한 접근 권한을 가진다. 화이트박스의 한 예로는 공격자가 기울기 기반 접근법을 사용하여 샘플에 미세한 섭동을 구축하여 잘못된 분류를 유발하는 공격이 있다. 반대편 극단에는 블랙박스 공격이 있다. 공격자는 모델의 입력과 출력은 알지만 내부 작동 방식은 모른다. 공격자는 모델의 출력을 탐색할 수 있으며—때로는 수천 개의 약간 변형된 입력을 보내면서—탐지기를 통과하는 것을 찾거나, 대리 모델을 학습시킨 후 원래 시스템에 전이되는 적대적 예시를 생성할 수 있다. 이러한 전술은 모델이 관찰하는 패턴을 점진적으로 변화시켜 드리프트를 가속화하고, 이전에는 신뢰할 수 있었던 방어를 훨씬 덜 효과적으로 만든다. [^22]
이러한 공격자 주도의 조작은 개념 드리프트를 유발할 뿐만 아니라 전이 학습과 같은 현대적 학습 기법의 약점도 드러낸다. 전이 학습은 방어자가 처음부터 학습하는 대신 다른 작업을 위해 사전 학습된 기존 모델을 가져와 미세 조정할 수 있게 해준다. 이는 이미지 분류 및 자연어 처리와 같은 다양한 도메인에서 성공률을 크게 높였다. 예를 들어 악성코드 탐지에서, Microsoft와 Intel은 최근 악성코드 바이너리를 그레이스케일 이미지로 변환하면 사전 학습된 비전 모델을 사용한 악성코드 탐지가 가능해져 강력한 성능—예를 들어 0.1%의 오탐률로 87%의 재현율—을 달성할 수 있음을 시연했다. 이러한 접근법은 학습 시간과 계산 비용을 크게 줄이지만, 본질적으로 중요한 단점을 수반한다: 기본 모델 아키텍처가 흔히 공개되어 있다는 점이다. 공격자는 이 사실을 이용하여 기저 모델의 알려진 약점을 악용하도록 설계된 적대적 예시를 생성할 수 있으며, 이를 통해 그러한 조작이 새로 학습된 악성코드 탐지기로 "전이"될 수 있다. 이러한 점에서 전이 학습은 기존 연구를 활용하는 상당한 이점을 제공하는 동시에, 공격자가 쉽게 악용할 수 있는 취약성을 물려받을 위험도 안고 있다. [^23]
빠르게 진화하는 공격 외에도, ML 기반 방어는 정확한 데이터나 레이블을 확보하는 데 알려진 문제에 직면한다. 레이블 집계기는 새로운 샘플에 레이블을 부여할 때 어려움을 겪을 수 있으며, 초기에는 이러한 레이블이 부정확할 수 있다. 시간이 지남에 따라 레이블은 일반적으로 실제 값(ground truth)으로 안정화된다. 이 과정은 수일에서 수년까지 걸릴 수 있다. 이것은 개념 드리프트의 기여 요인으로 간주되는데, 이 기간 동안 원래 레이블이 갱신되거나 새로운 공격이 생성되거나 새로운 클래스가 나타날 수 있기 때문이다. 이 현상을 지연된 레이블이라고 하며, 이는 개념 드리프트의 광범위한 원인에 기여한다. 따라서 지연된 레이블은 방어 솔루션 구축 및 평가 시 흔히 고려된다. 레이블과 샘플 매핑 간의 드리프트를 탐지하기 위해 드리프트 탐지기가 평가 과정에서 일반적으로 사용된다. [^24]
같이 보기
- 데이터 스트림 마이닝
- 데이터 마이닝
- Snyk, 소프트웨어 애플리케이션의 드리프트 감지를 포트폴리오에 포함하는 기업
더 읽을거리
개념 드리프트 탐지 알고리즘을 설명하는 많은 논문이 발표되었다. 여기에는 리뷰, 서베이 및 개요만 포함한다:
리뷰
-
-
-
-
-
-
-
-
-
-
-
-
-
외부 링크
-
-
-
-
-
-
-
-
-
-
-
-
소프트웨어
- Frouros: 머신러닝 시스템에서 드리프트 탐지를 위한 오픈소스 파이썬 라이브러리.[^25]
- NannyML: 단변량 및 다변량 분포 드리프트를 탐지하고 실측 레이블 없이 머신러닝 모델 성능을 추정하는 오픈소스 파이썬 라이브러리.
- RapidMiner: 이전 명칭 Yet Another Learning Environment (YALE): 지식 발견, 데이터 마이닝 및 머신러닝을 위한 무료 오픈소스 소프트웨어로, 데이터 스트림 마이닝, 시간에 따라 변하는 개념 학습, 드리프팅 개념 추적 기능도 제공한다. 데이터 스트림 마이닝 플러그인(이전 개념 드리프트 플러그인)과 함께 사용된다.
- EDDM (조기 드리프트 탐지 방법): Weka에서 드리프트 탐지 방법의 무료 오픈소스 구현.
- MOA (대규모 온라인 분석): 개념 드리프트가 있는 데이터 스트림 마이닝에 특화된 무료 오픈소스 소프트웨어. 사전순차 평가 방법, EDDM 개념 드리프트 방법, ARFF 실제 데이터셋 리더, SEA 개념, STAGGER, 회전 초평면, 랜덤 트리, 랜덤 반경 기반 함수 등의 인공 스트림 생성기를 포함한다. MOA는 Weka와의 양방향 상호작용을 지원한다.
데이터셋
실제
- USP 데이터 스트림 저장소, Souza 등(2020)이 편집한 개념 드리프트가 있는 27개의 실제 스트림 데이터셋. 접근
- Airline, E. Ikonomovska가 편집한 약 1억 1,600만 건의 항공편 도착 및 출발 기록(정제 및 정렬됨). 참고: Data Expo 2009 Competition http://stat-computing.org/dataexpo/2009/. 접근
- Chess.com (온라인 게임) 및 Luxembourg (사회 조사) 데이터셋, I. Zliobaite 편집. 접근
- ECUE 스팸 한 개인이 약 2년에 걸쳐 수집한 각각 10,000개 이상의 이메일로 구성된 2개의 데이터셋. S.J.Delany 웹페이지에서 접근
- Elec2, 전력 수요, 2개 클래스, 45,312개 인스턴스. 참고: M. Harries, Splice-2 comparative evaluation: Electricity pricing, 기술 보고서, The University of South Wales, 1999. J.Gama 웹페이지에서 접근. 적용 가능성에 대한 코멘트.
- PAKDD'09 대회 데이터는 신용 평가 작업을 나타낸다. 5년에 걸쳐 수집되었다. 안타깝게도 실제 레이블은 데이터의 첫 번째 부분에 대해서만 공개되었다. 접근
- 센서 스트림 및 전력 공급 스트림 데이터셋은 X. Zhu의 스트림 데이터 마이닝 저장소에서 이용 가능하다. 접근
- SMEAR는 결측값이 많은 벤치마크 데이터 스트림이다. 7년간의 환경 관측 데이터. 구름량 예측. 접근
- 텍스트 마이닝, I. Katakis가 관리하는 개념 드리프트가 있는 텍스트 마이닝 데이터셋 모음. 접근
- 가스 센서 어레이 드리프트 데이터셋, 다양한 농도 수준에서 6가지 가스를 식별하는 작업에서 드리프트 보상에 활용된 16개 화학 센서로부터의 13,910개 측정값 모음. 접근
기타
- KDD'99 대회 데이터는 군사 네트워크 환경에서의 시뮬레이션된 침입을 포함한다. 개념 드리프트 처리를 평가하는 벤치마크로 자주 사용된다. 접근
합성
- 극단적 검증 지연 벤치마크 Nonstationary Environments – Archive에서 접근.
- 사인, 직선, 평면, 원 및 불리언 데이터셋 L.Minku 웹페이지에서 접근.
- SEA 개념 J.Gama 웹페이지에서 접근.
- STAGGER
- Mixed
데이터 생성 프레임워크
프로젝트
- INFER: 진화하고 강건한 예측 시스템을 위한 전산 지능 플랫폼 (2010–2014), Bournemouth University (영국), Evonik Industries (독일), Research and Engineering Centre (폴란드)
- HaCDAIS: 적응형 정보 시스템에서의 개념 드리프트 처리 (2008–2012), Eindhoven University of Technology (네덜란드)
- KDUS: 유비쿼터스 스트림으로부터의 지식 발견, INESC Porto 및 Laboratory of Artificial Intelligence and Decision Support (포르투갈)
- ADEPT: 적응형 동적 앙상블 예측 기법, University of Manchester (영국), University of Bristol (영국)
- ALADDIN: 분산 데이터 및 정보 네트워크를 위한 자율 학습 에이전트 (2005–2010)
- GAENARI: C++ 점진적 결정 트리 알고리즘. 개념 드리프트 피해를 최소화한다. (2022)
벤치마크
- NAB: Numenta 이상 탐지 벤치마크, 스트리밍 실시간 애플리케이션에서 이상 탐지 알고리즘을 평가하기 위한 벤치마크. (2014–2018)
학회
*2014 ** [] "개념 드리프트, 도메인 적응 및 동적 환경에서의 학습" 특별 세션 @IEEE IJCNN 2014 *2013 ** RealStream ECML PKDD 2013에서의 데이터 스트림 마이닝을 위한 실제 과제 워크숍-토론, 프라하, 체코. ** LEAPS 2013 비정상 환경에서의 학습 전략 및 데이터 처리에 관한 제1회 국제 워크숍 *2011 ** LEE 2011 ICMLA'11에서의 진화하는 환경에서의 학습 및 실제 문제에의 적용 특별 세션 ** HaCDAIS 2011 적응형 정보 시스템에서의 개념 드리프트 처리에 관한 제2회 국제 워크숍 ** ICAIS 2011 점진적 학습 트랙 ** IJCNN 2011 개념 드리프트 및 동적 환경 학습 특별 세션 ** CIDUE 2011 동적 및 불확실한 환경에서의 전산 지능 심포지엄 *2010 ** HaCDAIS 2010 적응형 정보 시스템에서의 개념 드리프트 처리에 관한 국제 워크숍: 중요성, 과제 및 해결책 ** ICMLA10 비정상 환경에서의 동적 학습 특별 세션 ** SAC 2010 ACM 응용 컴퓨팅 심포지엄 데이터 스트림 트랙 ** SensorKDD 2010 센서 데이터로부터의 지식 발견 국제 워크숍 ** StreamKDD 2010 새로운 데이터 스트림 패턴 마이닝 기법 ** IEEE 세계 전산 지능 학술대회에서의 비정상 환경에서의 개념 드리프트 및 학습 ** MLMDS'2010 제10회 지능형 설계 및 응용 국제 학술대회(ISDA'10)에서의 데이터 스트림을 위한 머신러닝 방법 특별 세션
참고 문헌
[^1]: [https://dev.to/stack-labs/driftctl-and-terraform-they-re-two-of-a-kind-22p1 "Driftctl과 Terraform, 둘은 한 쌍이다!"]
[^2]: Girish Pancha, [https://www.cmswire.com/big-data/big-datas-hidden-scourge-data-drift/ 빅데이터의 숨겨진 재앙: 데이터 드리프트], ''CMSWire'', 2016년 4월 8일
[^3]: [[클라우드 컴퓨팅]]의 경우, 클라우드에서 실행되는 애플리케이션에 영향을 미칠 수 있는 인프라 드리프트는 클라우드 소프트웨어의 업데이트로 인해 발생할 수 있다.
다음과 같은 여러 유형이 있다.
[^4]: Ceschin, Fabrício. 빠르고 격렬하게: 진화하는 데이터 스트림으로서의 악성코드 탐지 모델링에 관하여. (2023)
[^5]: Arp, Daniel. 컴퓨터 보안에서의 머신러닝의 해야 할 것과 하지 말아야 할 것. (2021-11-30)
[^6]: Cite book doi = 10.1007/978-981-16-8531-6_4 chapter = 온라인 소셜 네트워크에서 소셜 스패머에 대응하기 위한 드리프트 인식 계층적 테스트 기반 접근법 title = 데이터 마이닝 series = Communications
[^7]: Cite journal doi = 10.1007/BF00116900 title = 개념 드리프트와 숨겨진 맥락 하에서의 학습 year = 1996 last1 = Widmer first1 = Gerhard last2 = Kubat first2 = Miroslav journal = Machin
[^8]: Cite book doi = 10.1007/978-3-030-64243-3_9 chapter = 데이터 스트림에서 다양성 측정 및 McDiarmid 부등식에 기반한 드리프트 탐지 방법 title = 그린, 퍼베이시브 및 클라우드 컴퓨팅 serie
[^9]: Lu, Jie. 개념 드리프트 하에서의 학습: 리뷰
[^10]: Daniel Nichter, ''효율적인 MySQL 성능'', 2021, ISBN 1098105060, [https://books.google.com/books?id=CzZTEAAAQBAJ&pg=PA299 299쪽]
[^11]: Basseville, Michele. 급격한 변화의 탐지: 이론과 응용. Prentice Hall. (1993)
[^12]: Alippi, C.. 2007 국제 신경망 합동 학회. IEEE. (2007)
[^13]: Malinovskaya, Anna. 인공 신경망의 통계적 프로세스 모니터링. (2024년 1월)
[^14]: Gama, J.. 인공지능의 발전 – SBIA 2004. Springer. (2004)
[^15]: Alippi, C.. 신뢰 구간 규칙의 교차에 기반한 적시 적응형 분류 시스템. (2011)
[^16]: Widmer, G.. 개념 드리프트와 숨겨진 맥락 하에서의 학습. (1996)
[^17]: Elwell, R.. 비정상 환경에서의 개념 드리프트 점진적 학습. (2011)
[^18]: Souza, V.M.A.. 실제 데이터를 활용한 스트림 학습 알고리즘 벤치마킹의 과제. (2020)
[^19]: Lu, Jie. 개념 드리프트 하에서의 학습: 리뷰
[^20]: Krawczyk, B.. 데이터 스트림 분석을 위한 앙상블 학습: 서베이. (2017)
[^21]: Cite journal title = 머신러닝 (불)안전: 문제의 흐름 author1 = Fabrício Ceschin author2 = Marcus Botacin author3 = Albert Bifet author4 = Bernhard Pfahringer aut
[^22]: Cite journal title=머신러닝 (불)안전: 문제의 흐름 author1=Fabrício Ceschin author2=Marcus Botacin author3=Albert Bifet author4=Bernhard Pfahringer author5=Luiz S. Oli
[^23]: Cite journal title=머신러닝 (불)안전: 문제의 흐름 author1=Fabrício Ceschin author2=Marcus Botacin author3=Albert Bifet author4=Bernhard Pfahringer author5=Luiz S. Oli
[^24]: Cite journal title=머신러닝 (불)안전: 문제의 흐름 author1=Fabrício Ceschin author2=Marcus Botacin author3=Albert Bifet author4=Bernhard Pfahringer author5=Luiz S. Oli
[^25]: Céspedes Sisniega, Jaime. Frouros: 머신러닝 시스템에서의 드리프트 탐지를 위한 오픈소스 파이썬 라이브러리. Elsevier. (2024)
관련 인사이트

로봇은 왜 볼트를 떨어뜨리는가 — Physical AI가 공장에 필요한 진짜 이유
AI가 데이터 패턴만 외우는 시대는 끝나고 있다. 물리 법칙을 이해하는 Physical AI가 제조 현장에 왜 필요한지, KAIST 교수와 자동차 부품 공장 팀장이 볼트 하나를 놓고 이야기한다.

디지털 트윈, 당신 공장엔 이미 있다 — 엑셀과 MES 사이 어딘가에
디지털 트윈은 10억짜리 3D 시뮬레이션이 아니다. 지금 쓰고 있는 엑셀에 좋은 질문 하나를 더하는 것 — 두 전문가가 중소 제조기업이 이미 가진 데이터로 예측하는 공장을 만드는 현실적 로드맵을 제시한다.

공장의 뇌는 어떻게 생겼는가 — 제조운영 AI 아키텍처 해부
지식관리, 업무자동화, 의사결정지원 — 따로 보면 다 있던 것들입니다. 제조 AI의 진짜 차이는 이 셋이 순환하면서 '우리 공장만의 지능'을 만든다는 데 있습니다.