데이터 마이닝은 머신 러닝, 통계학, 데이터베이스 시스템의 교차점에 있는 방법론을 활용하여 대규모 데이터 집합에서 패턴을 추출하고 발견하는 과정이다. 데이터 마이닝은 컴퓨터 과학과 통계학의 학제간 하위 분야로, 데이터 집합에서 (지능적인 방법을 사용하여) 정보를 추출하고 이를 추후 활용할 수 있도록 이해 가능한 구조로 변환하는 것을 전반적인 목표로 한다....

데이터 마이닝

데이터 마이닝은 머신 러닝, 통계학, 데이터베이스 시스템의 교차점에 있는 방법론을 활용하여 대규모 데이터 집합에서 패턴을 추출하고 발견하는 과정이다.[^1] 데이터 마이닝은 컴퓨터 과학과 통계학의 학제간 하위 분야로, 데이터 집합에서 (지능적인 방법을 사용하여) 정보를 추출하고 이를 추후 활용할 수 있도록 이해 가능한 구조로 변환하는 것을 전반적인 목표로 한다.[^1][^2][^3][^16] 데이터 마이닝은 "데이터베이스에서의 지식 발견" 과정, 즉 KDD의 분석 단계에 해당한다.[^13] 원시 분석 단계 외에도 데이터베이스 및 데이터 관리 측면, 데이터 전처리, 모델 및 추론 고려사항, 흥미도 지표, 복잡성 고려사항, 발견된 구조의 후처리, 시각화, 그리고 온라인 갱신 등을 포함한다.[^1]

"데이터 마이닝"이라는 용어는 사실 잘못된 명칭인데, 그 목표가 데이터 자체의 추출(채굴)이 아니라 대량의 데이터에서 패턴과 지식을 추출하는 것이기 때문이다.[^4] 이 용어는 또한 유행어이기도 하며^17, 모든 형태의 대규모 데이터 또는 정보 처리(수집, 추출, 저장, 분석, 통계)뿐만 아니라 인공지능(예: 머신 러닝) 및 비즈니스 인텔리전스를 포함한 모든 컴퓨터 의사결정 지원 시스템의 응용에 빈번하게 적용된다. 보다 일반적인 용어인 (대규모) 데이터 분석 및 분석학—또는 실제 방법론을 지칭할 때는 인공지능 및 머신 러닝—이 더 적절한 경우가 많다.

실제 데이터 마이닝 작업은 대량의 데이터를 반자동 또는 자동으로 분석하여 이전에 알려지지 않은 흥미로운 패턴을 추출하는 것으로, 여기에는 데이터 레코드의 그룹(군집 분석), 이상 레코드(이상 탐지), 의존 관계(연관 규칙 마이닝, 순차 패턴 마이닝) 등이 포함된다. 이는 일반적으로 공간 인덱스와 같은 데이터베이스 기법을 활용한다. 이러한 패턴은 입력 데이터의 일종의 요약으로 볼 수 있으며, 추가 분석이나 예를 들어 머신 러닝 및 예측 분석에 활용될 수 있다. 예를 들어, 데이터 마이닝 단계에서 데이터 내의 여러 그룹을 식별할 수 있으며, 이를 의사결정 지원 시스템에서 보다 정확한 예측 결과를 얻는 데 활용할 수 있다. 데이터 수집, 데이터 준비, 결과 해석 및 보고는 데이터 마이닝 단계에 포함되지 않지만, 추가 단계로서 전체 KDD 과정에는 속한다.

데이터 분석과 데이터 마이닝의 차이점은 데이터 분석이 데이터의 양에 관계없이 데이터 집합에 대해 모델과 가설을 검증하는 데 사용된다는 것이다. 예를 들어 마케팅 캠페인의 효과를 분석하는 것이 이에 해당한다. 반면 데이터 마이닝은 머신 러닝과 통계 모델을 사용하여 대량의 데이터에서 은밀하거나 숨겨진 패턴을 발견한다.[^18]

관련 용어인 데이터 준설, 데이터 낚시, 데이터 엿보기는 데이터 마이닝 방법을 사용하여 더 큰 모집단 데이터 집합의 일부를 표본 추출하는 것을 의미하며, 이 표본은 발견된 패턴의 유효성에 대해 신뢰할 수 있는 통계적 추론을 하기에 너무 작을 수 있다. 그러나 이러한 방법은 더 큰 데이터 모집단에 대해 검증할 새로운 가설을 만드는 데 활용될 수 있다.

어원

1960년대에 통계학자들과 경제학자들은 사전 가설 없이 데이터를 분석하는 나쁜 관행이라고 여기던 것을 지칭하기 위해 데이터 낚시(data fishing) 또는 데이터 준설(data dredging) 같은 용어를 사용했다. "데이터 마이닝"이라는 용어는 1983년 Review of Economic Studies에 발표된 논문에서 경제학자 Michael Lovell에 의해 유사하게 비판적인 의미로 사용되었다.[^19][^20] Lovell은 이 관행이 "실험(긍정적)"에서 "낚시" 또는 "엿보기(부정적)"에 이르기까지 다양한 별칭으로 위장하고 있다고 지적했다.

데이터 마이닝이라는 용어는 1990년경 데이터베이스 커뮤니티에서 대체로 긍정적인 의미로 등장했다. 1980년대에 잠시 동안 "데이터베이스 마이닝(database mining)"™이라는 표현이 사용되었으나, 샌디에이고에 본사를 둔 HNC라는 회사가 자사의 Database Mining Workstation을 홍보하기 위해 이를 상표로 등록했기 때문에,[^5] 연구자들은 결과적으로 데이터 마이닝이라는 용어로 전환하게 되었다. 그 밖에 사용된 용어로는 데이터 고고학(data archaeology), 정보 수확(information harvesting), 정보 발견(information discovery), 지식 추출(knowledge extraction) 등이 있다. Gregory Piatetsky-Shapiro는 동일한 주제에 관한 첫 번째 워크숍(KDD-1989)에서 "데이터베이스에서의 지식 발견(knowledge discovery in databases)"이라는 용어를 만들었으며,[^21] 이 용어는 인공지능 및 기계 학습 커뮤니티에서 더 널리 사용되게 되었다. 그러나 데이터 마이닝이라는 용어는 비즈니스 및 언론 커뮤니티에서 더 대중적으로 자리잡았다.[^22] 현재 데이터 마이닝과 지식 발견이라는 용어는 상호 교환적으로 사용되고 있다.

배경

데이터에서 패턴을 수작업으로 추출하는 일은 수세기 동안 이루어져 왔다. 데이터에서 패턴을 식별하는 초기 방법으로는 베이즈 정리(1700년대)와 회귀 분석(1800년대)이 있다.[^23] 컴퓨터 기술의 확산, 보편화, 그리고 성능 향상은 데이터 수집, 저장 및 처리 능력을 극적으로 증가시켰다. 데이터 세트의 규모와 복잡성이 커짐에 따라, 직접적인 "수작업" 데이터 분석은 점차 간접적이고 자동화된 데이터 처리로 보완되었으며, 이는 컴퓨터 과학의 다른 발견들, 특히 기계 학습 분야에서의 신경망, 군집 분석, 유전 알고리즘(1950년대), 의사결정 트리와 의사결정 규칙(1960년대), 서포트 벡터 머신(1990년대) 등의 도움을 받았다. 데이터 마이닝은 대규모 데이터 세트에서 숨겨진 패턴을 발견할 목적으로 이러한 방법들을 적용하는 과정이다.[^6] 이는 응용 통계학 및 인공지능(통상적으로 수학적 배경을 제공하는)과 데이터베이스 관리 사이의 간극을 연결하며, 데이터베이스에서 데이터가 저장되고 색인되는 방식을 활용하여 실제 학습 및 발견 알고리즘을 더 효율적으로 실행함으로써, 이러한 방법들이 점점 더 큰 데이터 세트에 적용될 수 있도록 한다.

과정

데이터베이스에서의 지식 발견(KDD) 과정은 일반적으로 다음 단계로 정의된다:

선택
전처리
변환
데이터 마이닝
해석/평가[^13]

그러나 이 주제에는 다양한 변형이 존재하며, 예를 들어 데이터 마이닝을 위한 산업 간 표준 프로세스(CRISP-DM)는 다음 여섯 단계를 정의한다:

비즈니스 이해
데이터 이해
데이터 준비
모델링
평가
배포

또는 (1) 전처리, (2) 데이터 마이닝, (3) 결과 검증과 같은 단순화된 프로세스도 있다.

2002년, 2004년, 2007년, 2014년에 실시된 설문 조사에 따르면 CRISP-DM 방법론이 데이터 마이너들이 사용하는 주요 방법론인 것으로 나타났다.[^7][^8][^9][^10]

이들 설문 조사에서 언급된 유일한 다른 데이터 마이닝 표준은 SEMMA였다. 그러나 CRISP-DM을 사용한다고 보고한 사람이 3~4배 더 많았다. 여러 연구팀이 데이터 마이닝 프로세스 모델에 대한 리뷰를 발표했으며,^11 Azevedo와 Santos는 2008년에 CRISP-DM과 SEMMA의 비교 연구를 수행했다.^12

전처리

데이터 마이닝 알고리즘을 사용하기 전에 대상 데이터 세트를 구성해야 한다. 데이터 마이닝은 데이터에 실제로 존재하는 패턴만 발견할 수 있으므로, 대상 데이터 세트는 이러한 패턴을 포함할 만큼 충분히 크면서도 허용 가능한 시간 내에 마이닝할 수 있을 만큼 간결해야 한다. 일반적인 데이터 소스로는 데이터 마트나 데이터 웨어하우스가 있다. 전처리는 데이터 마이닝 전에 다변량 데이터 세트를 분석하는 데 필수적이다. 그런 다음 대상 세트를 정제한다. 데이터 정제는 노이즈가 포함된 관측값과 결측 데이터가 있는 관측값을 제거한다.

데이터 마이닝

데이터 마이닝은 여섯 가지 일반적인 작업 유형을 포함한다:[^13]

이상 탐지(이상값/변화/편차 탐지) – 표준 범위를 벗어나 흥미로울 수 있거나 추가 조사가 필요한 데이터 오류일 수 있는 비정상적인 데이터 레코드를 식별하는 것이다.
연관 규칙 학습(의존성 모델링) – 변수 간의 관계를 탐색한다. 예를 들어, 슈퍼마켓은 고객의 구매 습관에 대한 데이터를 수집할 수 있다. 연관 규칙 학습을 사용하면 슈퍼마켓은 어떤 제품들이 함께 자주 구매되는지 파악하고 이 정보를 마케팅 목적으로 활용할 수 있다. 이를 장바구니 분석이라고 부르기도 한다.
클러스터링 – 데이터에서 알려진 구조를 사용하지 않고, 어떤 면에서 "유사한" 그룹과 구조를 발견하는 작업이다.
분류 – 알려진 구조를 일반화하여 새로운 데이터에 적용하는 작업이다. 예를 들어, 이메일 프로그램이 이메일을 "정상" 또는 "스팸"으로 분류하려고 시도할 수 있다.
회귀 – 데이터 또는 데이터 세트 간의 관계를 추정하기 위해 최소 오차로 데이터를 모델링하는 함수를 찾으려는 시도이다.
요약 – 시각화 및 보고서 생성을 포함하여 데이터 세트를 보다 간결하게 표현하는 것이다.

결과 검증

![An example of data produced by [data dredging through a bot operated by statistician Tyler Vigen, apparently showing a close link between the best word winning a spelling bee competition and the number of people in the United States killed by venomous spiders]]데이터 마이닝은 의도치 않게 오용될 수 있으며, 유의미해 보이지만 실제로는 미래의 행동을 예측하지 못하고 새로운 데이터 표본에서 재현할 수 없어 실용성이 거의 없는 결과를 산출할 수 있다. 이는 때때로 너무 많은 가설을 조사하면서 적절한 통계적 가설 검정을 수행하지 않아 발생한다. 기계 학습에서 이 문제의 간단한 형태는 과적합으로 알려져 있지만, 동일한 문제가 프로세스의 여러 단계에서 발생할 수 있으므로 훈련/테스트 분할이—적용 가능한 경우에도—이를 방지하기에 충분하지 않을 수 있다.[^14]

데이터에서의 지식 발견의 마지막 단계는 데이터 마이닝 알고리즘이 생성한 패턴이 더 넓은 데이터 세트에서도 나타나는지 검증하는 것이다. 알고리즘이 발견한 모든 패턴이 반드시 유효한 것은 아니다. 데이터 마이닝 알고리즘이 일반 데이터 세트에는 존재하지 않는 패턴을 훈련 세트에서 발견하는 것은 흔한 일이다. 이를 과적합이라고 한다. 이를 극복하기 위해 평가에서는 데이터 마이닝 알고리즘이 훈련되지 않은 테스트 데이터 세트를 사용한다. 학습된 패턴을 이 테스트 세트에 적용하고, 결과 출력을 원하는 출력과 비교한다. 예를 들어, "스팸"과 "정상" 이메일을 구별하려는 데이터 마이닝 알고리즘은 샘플 이메일의 훈련 세트로 훈련된다. 훈련이 완료되면 학습된 패턴을 훈련되지 않은 테스트 이메일 세트에 적용한다. 그런 다음 패턴이 이메일을 올바르게 분류한 수를 통해 패턴의 정확도를 측정할 수 있다. ROC 곡선과 같은 여러 통계적 방법을 사용하여 알고리즘을 평가할 수 있다.

학습된 패턴이 원하는 기준을 충족하지 못하면 전처리 및 데이터 마이닝 단계를 재평가하고 변경해야 한다. 학습된 패턴이 원하는 기준을 충족하면 마지막 단계는 학습된 패턴을 해석하고 이를 지식으로 전환하는 것이다.

연구

이 분야의 최고 전문 학회는 미국컴퓨터학회(ACM) 산하 지식 발견 및 데이터 마이닝 특별관심그룹(SIGKDD)이다.[^24][^25] 1989년부터 이 ACM SIG는 매년 국제 학술대회를 개최하고 그 논문집을 발간해 왔으며,^26 1999년부터는 "SIGKDD Explorations"라는 제목의 반년간 학술지를 발행하고 있다.^27

데이터 마이닝 관련 컴퓨터 과학 학술대회는 다음과 같다:

CIKM 학술대회 – ACM 정보 및 지식 관리 학술대회
유럽 기계학습 및 지식 발견의 원리와 실제 학술대회
KDD 학술대회 – ACM SIGKDD 지식 발견 및 데이터 마이닝 학술대회

데이터 마이닝 주제는 ICDE 학술대회, SIGMOD 학술대회, 초대규모 데이터베이스 국제학술대회 등 많은 데이터 관리/데이터베이스 학술대회에서도 다루어진다.

표준

데이터 마이닝 프로세스의 표준을 정의하려는 노력이 있어 왔는데, 예를 들어 1999년의 유럽 산업 간 데이터 마이닝 표준 프로세스(CRISP-DM 1.0)와 2004년의 자바 데이터 마이닝 표준(JDM 1.0)이 있다. 이들의 후속 프로세스(CRISP-DM 2.0과 JDM 2.0) 개발이 2006년에 활발히 진행되었으나 이후 중단되었다. JDM 2.0은 최종 초안에 도달하지 못한 채 철회되었다.

추출된 모델의 교환—특히 예측 분석에서의 활용—을 위한 핵심 표준은 예측 모델 마크업 언어(PMML)로, 이는 데이터 마이닝 그룹(DMG)이 개발한 XML 기반 언어이며 많은 데이터 마이닝 응용 프로그램에서 교환 형식으로 지원된다. 이름에서 알 수 있듯이, PMML은 예측 모델만을 다루며, 이는 비즈니스 응용에서 매우 중요한 특정 데이터 마이닝 과제이다. 그러나 (예를 들어) 부분공간 군집화를 다루기 위한 확장이 DMG와는 독립적으로 제안된 바 있다.[^28]

주목할 만한 활용 사례

데이터 마이닝은 디지털 데이터가 있는 곳이라면 어디에서나 사용된다. 데이터 마이닝의 주목할 만한 사례는 비즈니스, 의학, 과학, 금융, 건설, 감시 등 다양한 분야에서 찾아볼 수 있다.

개인정보 보호 우려와 윤리

"데이터 마이닝"이라는 용어 자체에는 윤리적 함의가 없을 수 있으나, 이 용어는 종종 사용자 행동과 관련된 정보 채굴(윤리적이든 아니든)과 연관된다.[^29]

데이터 마이닝이 사용되는 방식은 일부 경우와 맥락에서 개인정보 보호, 합법성, 윤리에 관한 의문을 제기할 수 있다.[^30] 특히, 전면적 정보 인식 프로그램(Total Information Awareness Program)이나 ADVISE에서와 같이 국가 안보나 법 집행 목적으로 정부 또는 상업적 데이터 세트를 데이터 마이닝하는 것은 개인정보 보호에 대한 우려를 불러일으켰다.[^31][^32]

데이터 마이닝은 기밀성과 개인정보 보호 의무를 침해하는 정보나 패턴을 드러내는 데이터 전처리를 필요로 한다. 이러한 상황이 발생하는 일반적인 방식은 데이터 집계를 통해서이다. 데이터 집계는 분석을 용이하게 하는 방식으로 데이터를 결합하는 것을 포함하지만(다양한 출처에서 가져온 데이터일 수 있음), 동시에 비공개적이고 개인 수준의 데이터를 추론 가능하게 하거나 그 밖의 방식으로 드러나게 만들 수도 있다.^15 개인의 프라이버시에 대한 위협은 데이터가 일단 편집되면, 데이터 마이너 또는 새롭게 편집된 데이터 세트에 접근할 수 있는 누구든 특정 개인을 식별할 수 있게 될 때 발생하며, 특히 해당 데이터가 원래 익명이었을 때 더욱 그러하다.[^33]

데이터는 개인을 쉽게 식별할 수 없도록 익명화되도록 수정될 수도 있다.^15 그러나 "익명화된" 데이터 세트조차도 잠재적으로 개인 식별이 가능한 충분한 정보를 포함할 수 있는데, 이는 AOL이 부주의하게 공개한 검색 기록 세트를 기반으로 기자들이 여러 개인을 찾아낼 수 있었던 사례에서 실제로 발생한 바 있다.^34

개인 식별 정보의 부주의한 노출로 인해 제공자가 공정 정보 관행(Fair Information Practices)을 위반하게 된다. 이러한 부주의는 해당 개인에게 재정적, 정서적 또는 신체적 피해를 초래할 수 있다. 개인정보 침해의 한 사례로, 월그린스(Walgreens)의 고객들은 2011년에 처방 정보를 데이터 마이닝 회사에 판매하고, 해당 회사가 다시 그 데이터를 제약회사에 제공한 것에 대해 회사를 상대로 소송을 제기하였다.[^35]

유럽의 상황

유럽은 상당히 강력한 개인정보 보호법을 보유하고 있으며, 소비자의 권리를 더욱 강화하기 위한 노력이 진행 중이다. 그러나 1998년에서 2000년 사이에 개발된 미국-EU 세이프 하버 원칙(U.S.–E.U. Safe Harbor Principles)은 현재 사실상 유럽 사용자들을 미국 기업에 의한 개인정보 악용에 노출시키고 있다. 에드워드 스노든의 글로벌 감시 폭로의 결과로, 이 협정을 폐기하자는 논의가 증가하였는데, 특히 데이터가 국가안보국(National Security Agency)에 완전히 노출되며, 미국과 합의에 도달하려는 시도가 실패하였기 때문이다.[^36]

특히 영국에서는 기업들이 특정 고객 집단을 대상으로 부당하게 높은 가격을 지불하도록 강요하는 방법으로 데이터 마이닝을 사용한 사례가 있었다. 이러한 집단은 디지털 시장에서 자신이 어떻게 착취당할 수 있는지에 대해 잘 알지 못하는 사회경제적 지위가 낮은 사람들인 경향이 있다.[^37]

미국의 상황

미국에서는 건강보험 이동성 및 책임에 관한 법률(HIPAA)과 같은 규제 통제의 의회 통과를 통해 개인정보 보호 우려가 다루어져 왔다. HIPAA는 개인이 자신이 제공하는 정보와 그 정보의 의도된 현재 및 미래 사용에 대해 "사전 동의(informed consent)"를 하도록 요구한다. Biotech Business Week의 기사에 따르면, "'실제로 HIPAA는 연구 분야의 오랜 규정보다 더 큰 보호를 제공하지 않을 수 있다'고 AAHC는 말한다. 더 중요한 것은, 사전 동의를 통한 보호라는 이 규정의 목표가 일반인에게는 이해할 수 없는 수준에 도달하고 있다는 것이다."[^38] 이는 데이터 집계 및 마이닝 관행에서 데이터 익명성의 필요성을 강조한다.

HIPAA 및 가족교육권 및 프라이버시법(FERPA)과 같은 미국의 정보 프라이버시 법률은 각 법률이 다루는 특정 분야에만 적용된다. 미국 대다수 기업의 데이터 마이닝 사용은 어떠한 법률로도 통제되지 않고 있다.

저작권법

유럽의 상황

유럽연합

데이터셋에 저작권이 없더라도, 유럽연합은 데이터베이스 권리를 인정하고 있으므로 데이터 마이닝은 데이터베이스 지침에 의해 보호되는 지식재산권 소유자의 권리에 종속된다. 유럽 저작권 데이터베이스법에 따르면, 저작권이 있는 저작물의 마이닝(예: 웹 마이닝)은 저작권자의 허락 없이도 2019년 디지털 단일 시장 저작권 지침 제3조 및 제4조에 의해 허용된다. 과학 연구를 위한 특별한 텍스트 및 데이터 마이닝(TDM) 예외는 제3조에 규정되어 있으며, 제4조에 규정된 보다 일반적인 예외는 저작권자가 거부 의사를 표명하지 않은 경우에만 적용된다.

유럽 위원회는 2013년 '유럽을 위한 라이선스(Licences for Europe)'라는 제목 하에 텍스트 및 데이터 마이닝에 관한 이해관계자 논의를 주선하였다.[^39] 이 법적 문제의 해결책이 제한 및 예외가 아닌 라이선스에 초점을 맞추면서, 대학, 연구자, 도서관, 시민사회 단체 및 오픈 액세스 출판사의 대표들은 2013년 5월 이해관계자 대화에서 탈퇴하였다.[^40]

영국

하그리브스 검토의 권고에 따라, 영국 정부는 2014년 콘텐츠 마이닝을 제한 및 예외로 허용하도록 저작권법을 개정하였다.^41 영국은 2009년 데이터 마이닝 예외를 도입한 일본에 이어 세계에서 두 번째로 이를 시행한 국가가 되었다. 그러나 정보사회 지침(2001)의 제한으로 인해 영국의 예외 조항은 비상업적 목적의 콘텐츠 마이닝만을 허용한다. 또한 영국 저작권법은 이 조항이 계약 조건에 의해 무효화되는 것을 허용하지 않는다.

스위스

2020년부터 스위스도 스위스 저작권법 제24d조에 규정된 특정 조건 하에서 연구 분야의 데이터 마이닝을 허용함으로써 이를 규제하고 있다. 이 새로운 조항은 2020년 4월 1일에 발효되었다.^42

미국의 상황

미국 저작권법, 특히 공정 이용 조항은 미국에서의 콘텐츠 마이닝의 합법성을 지지하며, 이스라엘, 대만, 한국 등 기타 공정 이용 국가에서도 마찬가지이다. 콘텐츠 마이닝은 변형적 이용, 즉 원저작물을 대체하지 않는 것이므로 공정 이용에 해당하여 합법적인 것으로 간주된다. 예를 들어, 구글 북스 합의의 일환으로 해당 사건의 담당 판사는 저작권이 있는 도서에 대한 구글의 디지털화 프로젝트가 합법적이라고 판결하였는데, 이는 부분적으로 디지털화 프로젝트가 보여준 변형적 이용—그 중 하나가 텍스트 및 데이터 마이닝—때문이었다.[^43]

소프트웨어

무료 오픈소스 데이터 마이닝 소프트웨어 및 응용 프로그램

다음 응용 프로그램들은 무료/오픈소스 라이선스로 이용할 수 있다. 응용 프로그램 소스 코드에 대한 공개 접근도 가능하다.

Carrot2: 텍스트 및 검색 결과 클러스터링 프레임워크.
Chemicalize.org: 화학 구조 마이너 및 웹 검색 엔진.
ELKI: Java 언어로 작성된 고급 클러스터 분석 및 이상치 탐지 방법을 갖춘 대학 연구 프로젝트.
GATE: 자연어 처리 및 언어 공학 도구.
KNIME: Konstanz Information Miner로, 사용자 친화적이고 포괄적인 데이터 분석 프레임워크.
Massive Online Analysis (MOA): Java 프로그래밍 언어로 개발된 개념 드리프트 기능을 갖춘 실시간 빅데이터 스트림 마이닝 도구.
MEPX: 유전 프로그래밍 변형에 기반한 회귀 및 분류 문제를 위한 크로스 플랫폼 도구.
mlpack: C++ 언어로 작성된 바로 사용 가능한 기계 학습 알고리즘 모음.
NLTK (Natural Language Toolkit): Python 언어를 위한 기호적 및 통계적 자연어 처리(NLP) 라이브러리 및 프로그램 모음.
OpenNN: 오픈 신경망 라이브러리.
Orange: Python 언어로 작성된 컴포넌트 기반 데이터 마이닝 및 기계 학습 소프트웨어 모음.
PSPP: SPSS와 유사한 GNU 프로젝트 소속의 데이터 마이닝 및 통계 소프트웨어
R: 통계 컴퓨팅, 데이터 마이닝 및 그래픽을 위한 프로그래밍 언어 및 소프트웨어 환경. GNU 프로젝트의 일부이다.
scikit-learn: Python 프로그래밍 언어를 위한 오픈소스 기계 학습 라이브러리.
Torch: Lua 프로그래밍 언어를 위한 오픈소스 딥러닝 라이브러리이자 기계 학습 알고리즘을 폭넓게 지원하는 과학 컴퓨팅 프레임워크(개발은 대부분 훨씬 더 널리 사용되는 Python 기반 PyTorch로 이전됨)
UIMA: UIMA(비정형 정보 관리 아키텍처)는 텍스트, 오디오, 비디오 등 비정형 콘텐츠를 분석하기 위한 컴포넌트 프레임워크로, 원래 IBM에서 개발하였다.
Weka: Java 프로그래밍 언어로 작성된 기계 학습 소프트웨어 응용 프로그램 모음.

독점 데이터 마이닝 소프트웨어 및 응용 프로그램

다음 응용 프로그램들은 독점 라이선스로 이용할 수 있다.

Angoss KnowledgeSTUDIO: 데이터 마이닝 도구
LIONsolver: 학습 및 지능형 최적화(LION) 접근법을 구현한 데이터 마이닝, 비즈니스 인텔리전스 및 모델링을 위한 통합 소프트웨어 응용 프로그램.
PolyAnalyst: Megaputer Intelligence에서 제공하는 데이터 및 텍스트 마이닝 소프트웨어.
Microsoft Analysis Services: Microsoft에서 제공하는 데이터 마이닝 소프트웨어.
NetOwl: 데이터 마이닝을 가능하게 하는 다국어 텍스트 및 개체 분석 제품 모음.
Oracle Data Mining: Oracle Corporation에서 제공하는 데이터 마이닝 소프트웨어.
PSeven: DATADVANCE에서 제공하는 엔지니어링 시뮬레이션 및 분석 자동화, 다분야 최적화 및 데이터 마이닝을 위한 플랫폼.
Qlucore Omics Explorer: 데이터 마이닝 소프트웨어.
RapidMiner: 기계 학습 및 데이터 마이닝 실험을 위한 환경.
SAS Enterprise Miner: SAS Institute에서 제공하는 데이터 마이닝 소프트웨어.
SPSS Modeler: IBM에서 제공하는 데이터 마이닝 소프트웨어.
STATISTICA Data Miner: StatSoft에서 제공하는 데이터 마이닝 소프트웨어.
Tanagra: 교육용으로도 사용되는 시각화 지향 데이터 마이닝 소프트웨어.
Vertica: Hewlett-Packard에서 제공하는 데이터 마이닝 소프트웨어.
Google Cloud Platform: Google에서 관리하는 자동화된 맞춤형 ML 모델.
Amazon SageMaker: Amazon에서 제공하는 맞춤형 ML 모델 생성 및 프로덕션화를 위한 관리형 서비스.

같이 보기

방법론

응용 분야

응용 사례

관련 주제

데이터를 분석하는 것과 대비하여 데이터에서 정보를 추출하는 것에 대한 자세한 내용은 다음을 참조:

기타 자료 *International Journal of Data Warehousing and Mining

추가 읽을거리

Cabena, Peter; Hadjnian, Pablo; Stadler, Rolf; Verhees, Jaap; Zanasi, Alessandro (1997); 데이터 마이닝의 발견: 개념에서 구현까지, Prentice Hall,
M.S. Chen, J. Han, P.S. Yu (1996) "데이터 마이닝: 데이터베이스 관점에서의 개요 ". Knowledge and data Engineering, IEEE Transactions on 8 (6), 866–883
Feldman, Ronen; Sanger, James (2007); 텍스트 마이닝 핸드북, Cambridge University Press,
Guo, Yike; and Grossman, Robert (편집) (1999); 고성능 데이터 마이닝: 알고리즘, 응용 및 시스템의 확장, Kluwer Academic Publishers
Han, Jiawei, Micheline Kamber, and Jian Pei. 데이터 마이닝: 개념과 기법. Morgan kaufmann, 2006.
Hastie, Trevor, Tibshirani, Robert and Friedman, Jerome (2001); 통계 학습의 기초: 데이터 마이닝, 추론 및 예측, Springer,
Liu, Bing (2007, 2011); 웹 데이터 마이닝: 하이퍼링크, 콘텐츠 및 사용 데이터 탐색, Springer,
- Nisbet, Robert; Elder, John; Miner, Gary (2009); 통계 분석 및 데이터 마이닝 응용 핸드북, Academic Press/Elsevier,
Poncelet, Pascal; Masseglia, Florent; and Teisseire, Maguelonne (편집) (2007년 10월); "데이터 마이닝 패턴: 새로운 방법과 응용", Information Science Reference,
Tan, Pang-Ning; Steinbach, Michael; and Kumar, Vipin (2005); 데이터 마이닝 입문,
Theodoridis, Sergios; and Koutroumbas, Konstantinos (2009); 패턴 인식, 제4판, Academic Press,
Weiss, Sholom M.; and Indurkhya, Nitin (1998); 예측 데이터 마이닝, Morgan Kaufmann
(무료 Weka 소프트웨어도 참조)
Ye, Nong (2003); 데이터 마이닝 핸드북, Mahwah, NJ: Lawrence Erlbaum

외부 링크

참고 문헌

[^1]: 데이터 마이닝 커리큘럼. [[Association for Computing Machinery. (2006-04-30)

[^2]: Clifton, Christopher. 브리태니커 백과사전: 데이터 마이닝의 정의

[^3]: Hastie, Trevor. 통계 학습의 기초: 데이터 마이닝, 추론, 그리고 예측

[^4]: Han, Jiawei. 데이터 마이닝: 개념과 기법. [[Morgan Kaufmann]]. (2001)

[^5]: Mena, Jesús. 법 집행, 보안 및 정보를 위한 머신 러닝 포렌식. CRC Press (Taylor & Francis Group)

[^6]: Kantardzic, Mehmed. 데이터 마이닝: 개념, 모델, 방법 및 알고리즘. John Wiley & Sons

[^7]: cite web title=데이터 마이닝에 주로 사용하는 방법론은 무엇입니까 (2002)? url=https://www.kdnuggets.com/polls/2002/methodology.htm publisher=[[KDnuggets]] date=2002 access-date=2023년 12월 29일

[^8]: cite web title=데이터 마이닝에 주로 사용하는 방법론은 무엇입니까 (2004)? url=https://www.kdnuggets.com/polls/2004/data_mining_methodology.htm publisher=[[KDnuggets]] date=2004 access-date=12월 29일

[^9]: cite web title=데이터 마이닝에 주로 사용하는 방법론은 무엇입니까 (2007)? url=http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm publisher=[[KDnuggets]] date=2007 access-date=12월 29일

[^10]: cite web title=데이터 마이닝에 주로 사용하는 방법론은 무엇입니까 (2014)? url=https://www.kdnuggets.com/polls/2014/analytics-data-mining-data-science-methodology.html publisher=[[KDnuggets]] date

[^13]: Fayyad, Usama. 데이터 마이닝에서 데이터베이스의 지식 발견까지

[^14]: cite journal last1 = Hawkins first1 = Douglas M year = 2004 title = 과적합 문제 journal = Journal of Chemical Information and Computer Sciences volume = 44 issue = 1 page

[^16]: Han, Jaiwei. 데이터 마이닝: 개념과 기법. Morgan Kaufmann. (2011)

[^18]: Olson, D. L. (2007). 비즈니스 서비스에서의 데이터 마이닝. ''Service Business'', ''1''(3), 181–193. doi 10.1007/s11628-006-0014-7

[^19]: Lovell, Michael C.. 데이터 마이닝. (1983)

[^20]: Charemza, Wojciech W.. 계량경제학 실무의 새로운 방향. Edward Elgar

[^21]: KDD-89 워크숍

[^22]: Piatetsky-Shapiro, Gregory. 강의: 데이터 마이닝과 지식 발견: 개론. KD Nuggets

[^23]: Coenen, Frans. 데이터 마이닝: 과거, 현재 그리고 미래. (2011-02-07)

[^24]: Microsoft Academic Search: 데이터 마이닝 분야 주요 학회. [[Microsoft Academic Search]]

[^25]: Google Scholar: 주요 출판물 - 데이터 마이닝 및 분석. [[Google Scholar]]

[^28]: Cite book last1 = Günnemann first1 = Stephan last2 = Kremer first2 = Hardy last3 = Seidl first3 = Thomas doi = 10.1145/2023598.2023605 chapter = PMML 표준의 확장

[^29]: 데이터 마이닝의 가능성과 함정: 윤리적 문제

[^30]: 불법 국내 감시의 종식? 기대하지 마라. (2007년 3월 15일)

[^31]: 데이터 마이닝과 국내 보안: 데이터를 이해하기 위한 점 연결. (2003년 12월 15일)

[^32]: Resig, John. 인스턴트 메시징 서비스 마이닝을 위한 프레임워크

[^33]: Ohm, Paul. 파멸의 데이터베이스를 구축하지 마라

[^35]: Cite journal title = 빅데이터가 프라이버시, 보안 및 소비자 복지에 미치는 영향 journal = Telecommunications Policy pages = 1134–1145 volume = 38 issue = 11 doi = 10.1016/j.telpol.2014.10.002 first =

[^36]: Weiss, Martin A.. 미국-EU 데이터 프라이버시: 세이프 하버에서 프라이버시 실드까지. (2016년 5월 19일)

[^37]: Parker, George. 빅데이터를 이용해 고객을 착취하는 영국 기업들이 표적이 되다. (2018-09-30)

[^38]: Biotech Business Week 편집부 (2008년 6월 30일); ''생의학; HIPAA 프라이버시 규칙이 생의학 연구를 저해하다'', Biotech Business Week, 2009년 11월 17일 LexisNexis Academic에서 검색

[^39]: 유럽을 위한 라이선스 – 구조화된 이해관계자 대화 2013

[^40]: 텍스트 및 데이터 마이닝: 그 중요성과 유럽에서의 변화 필요성

[^43]: 판사가 구글 북스에 유리한 약식 판결을 내리다 – 공정 이용의 승리. Antonelli Law Ltd. (2013년 11월 19일)