그래픽 처리 장치
그래픽 처리 장치(GPU, Graphics Processing Unit)는 디지털 이미지 처리 및 컴퓨터 그래픽 가속을 위해 설계된 특수 전자 회로로, 개별 그래픽 카드의 구성 요소로 존재하거나 메인보드, 휴대전화, 개인용 컴퓨터, 워크스테이션, 게임 콘솔에 내장되어 있다. GPU는 그래픽 처리에도 광범위하게 사용되는 선형대수 연산 가속 능력 덕분에 인공지능(AI) 처리에도 점점 더 많이 활용되고 있다.
이 용어에 대한 단일한 정의는 없으며, 어떠한 영상 표시 시스템을 가리키는 데에도 사용될 수 있지만, 현대적 용법에서 GPU는 3D 이미지의 회전 및 크기 조정과 같은 다양한 그래픽 작업에 필요한 연산을 내부적으로 수행하는 능력을 갖추고 있으며, 흔히 셰이더(shader)라고 알려진 사용자 정의 프로그램을 실행하는 추가 기능도 포함한다. 이는 내부 연산 능력이 없었던 비디오 디스플레이 컨트롤러(video display controller)나 기본적인 메모리 이동 작업만 수행하던 블리터(blitter)로 알려진 이전 세대의 그래픽 컨트롤러와 대조된다. 현대적 GPU는 1990년대에 등장하여 CPU의 도움 없이 선 그리기나 텍스트 렌더링 같은 작업을 수행하는 기능이 추가되었고, 이후 3D 기능이 더해졌다.
그래픽 기능은 일반적으로 서로 독립적이며, 이러한 특성 덕분에 별도의 연산 엔진에서 구현하기에 적합하다. 현대 GPU는 수백 또는 수천 개의 연산 유닛을 포함한다. 이러한 병렬 구조 덕분에 GPU는 당혹스러울 정도로 병렬적인 문제(embarrassingly parallel problem)를 포함한 비그래픽 연산에도 유용하게 되었다. 방대한 양의 연산을 빠르게 수행하는 GPU의 능력은 데이터 집약적이고 높은 연산 능력을 요구하는 작업에 탁월한 성능을 발휘하는 인공지능(AI)을 비롯한 다양한 분야에서의 채택으로 이어졌다. 그 외 비그래픽 용도로는 신경망 훈련과 암호화폐 채굴이 있다.
역사
1960년대 – 1970년대

전용 3D 그래픽 하드웨어의 역사는 1968년 매트릭스 프로세서를 탑재한 Adage AGT-30과 같은 그래픽 터미널로 거슬러 올라간다. Ikonas는 1970년대 후반에 8비트 및 24비트 그래픽과 3D 가속을 지원하는 그래픽 시스템을 제작했다.[^1]
아케이드 시스템 보드는 1970년대부터 특수 2D 그래픽 회로를 사용해 왔다. 초기 비디오 게임 하드웨어에서는 프레임 버퍼용 RAM이 고가였기 때문에, 비디오 칩이 모니터에 화면이 스캔 출력되는 동안 데이터를 합성하는 방식을 사용했다.[^15]
특수 배럴 시프터 회로는 Midway와 Taito의 다양한 1970년대 아케이드 비디오 게임, 예를 들어 Gun Fight (1975), Sea Wolf (1976), Space Invaders (1978)에서 CPU가 프레임버퍼 그래픽을 애니메이션화하는 데 도움을 주었다.[^16] 1979년 Namco Galaxian 아케이드 시스템은 RGB 컬러, 다색 스프라이트, 타일맵 배경을 지원하는 특수 그래픽 하드웨어를 사용했다.[^17] Galaxian 하드웨어는 아케이드 비디오 게임의 황금기 동안 Namco, Centuri, Gremlin, Irem, Konami, Midway, Nichibutsu, Sega, Taito 등의 게임 회사들이 널리 사용했다.[^18]
![Atari [ANTIC microprocessor on an Atari 130XE motherboard]] 1977년 Atari 2600은 Television Interface Adaptor라 불리는 비디오 시프터를 사용했다.[^19] Atari 8비트 컴퓨터(1979)에는 "디스플레이 리스트"—스캔 라인이 특정 비트맵 또는 문자 모드에 매핑되는 방식과 메모리가 저장되는 위치를 설명하는 명령어를 해석하는 비디오 프로세서 ANTIC이 탑재되어 있었다(따라서 연속적인 프레임 버퍼가 필요하지 않았다).[^20] 디스플레이 리스트 명령어에서 비트를 설정하면 스캔 라인에서 6502 머신 코드 서브루틴을 트리거할 수 있었다.[^21] ANTIC은 또한 CPU와 독립적으로 부드러운 수직 및 수평 스크롤을 지원했다.[^22]
1980년대

1980년대에는 전문 3D 그래픽 하드웨어에서 상당한 발전이 이루어졌다. 아마도 가장 큰 영향을 미친 것은 1981년 스탠퍼드 대학교의 Jim Clark과 Marc Hannah가 설계한 VLSI 벡터 프로세서 ASIC인 Geometry Engine의 개발이었다. 이 프로세서는 현대 텐서 코어 및 그래픽과 AI용으로 판매되는 기타 유사 프로세서의 선구자이다. Geometry Engine은 이후 수년간 Silicon Graphics 워크스테이션에 사용되었다. Silicon Graphics의 첫 번째 제품으로 1983년 11월에 출하된 IRIS 1000은 Geometry Engine 기반의 하드웨어 가속 3D 그래픽을 갖춘 터미널이었다.[^1] Geometry Engine은 초당 약 600만 연산을 처리할 수 있었다.[^23]
![NEC [μPD7220 A]] NEC μPD7220은 개인용 컴퓨터 그래픽 디스플레이 프로세서를 단일 대규모 집적(LSI) 집적 회로 칩으로 최초 구현한 제품이었다. 이를 통해 Number Nine Visual Technology와 같은 회사의 저비용 고성능 비디오 그래픽 카드 설계가 가능해졌다. 1980년대 중반까지 가장 잘 알려진 GPU가 되었다.[^24] 이것은 PC용 최초의 완전 집적 VLSI(초대규모 집적) 금속 산화물 반도체(NMOS) 그래픽 디스플레이 프로세서로, 최대 1024×1024 해상도를 지원했으며 PC 그래픽 시장의 기반을 마련했다. 다수의 그래픽 카드에 사용되었고, Intel의 첫 그래픽 프로세싱 유닛인 Intel 82720 등의 클론에 라이선스되었다.[^25] Williams Electronics의 아케이드 게임 Robotron: 2084, Joust, Sinistar, Bubbles는 모두 1982년에 출시되었으며, 16색 비트맵 작업을 위한 커스텀 블리터 칩을 포함하고 있었다.[^26][^27]
1984년, Hitachi는 개인용 컴퓨터를 위한 최초의 주요 CMOS 그래픽 프로세서인 ARTC HD63484를 출시했다. ARTC는 단색 모드에서 최대 4K 해상도를 표시할 수 있었다. 1980년대 후반에 다수의 그래픽 카드와 터미널에 사용되었다.[^28]

1985년, Amiga가 비트맵 조작, 선 그리기, 영역 채우기를 위한 블리터를 포함하는 Agnus라는 커스텀 그래픽 칩과 함께 출시되었다. 또한 자체 간단한 명령어 세트를 가진 코프로세서도 포함되어 있었는데, 이는 비디오 빔과 동기화하여 그래픽 하드웨어 레지스터를 조작하거나(예: 스캔라인별 팔레트 전환, 스프라이트 멀티플렉싱, 하드웨어 윈도잉) 블리터를 구동할 수 있었다.
같은 1985년에 IBM은 Professional Graphics Controller를 출시했는데, 이는 전용 CPU를 사용하여 메인 시스템과 독립적으로 그래픽을 그리는 256색 그래픽을 갖춘 초보적인 3D 카드였다. Matrox를 포함한 여러 제조업체가 이를 복제했다.[^1]
1986년, Texas Instruments는 최초의 완전 프로그래밍 가능한 그래픽 프로세서인 TMS34010을 출시했다.[^29] 범용 코드를 실행할 수 있었지만 그래픽 지향 명령어 세트도 갖추고 있었다. 1990–1992년 동안 이 칩은 Texas Instruments Graphics Architecture("TIGA") Windows 가속 카드의 기반이 되었다.
![The [IBM 8514 Micro Channel adapter, with memory add-on]] 이어서 1987년에 IBM 8514 그래픽 시스템이 출시되었다. 이것은 IBM PC 호환기종용 비디오 카드 중 고정 기능 2D 프리미티브를 전자 하드웨어로 구현한 최초의 제품 중 하나였다. 1987년에 출시된 Sharp의 X68000은 65,536 색상 팔레트와 스프라이트, 스크롤, 다중 플레이필드를 하드웨어로 지원하는 커스텀 그래픽 칩셋^30을 사용했다.[^31] 이 기종은 Capcom의 CP System 아케이드 보드의 개발 머신으로 사용되었다. 1989년에 출시된 Fujitsu의 FM Towns 컴퓨터는 16,777,216 색상 팔레트를 지원했다.[^32]
section on the motherboard in IBM PS/55 ]]
참고로, IBM은 1987년에 최대 해상도 픽셀의 Video Graphics Array(VGA) 디스플레이 시스템도 도입했다. 8514/A와 달리 VGA에는 하드웨어 가속 기능이 없었다. 1988년 11월, NEC Home Electronics는 VGA의 후속으로 Super VGA(SVGA) 컴퓨터 디스플레이 표준을 개발하고 홍보하기 위해 Video Electronics Standards Association(VESA)의 설립을 발표했다. Super VGA는 최대 픽셀의 그래픽 디스플레이 해상도를 지원하여 56% 향상되었다.
1988년 SGI는 10-12개의 Geometry Engine을 탑재한 IRIS 워크스테이션 그래픽을 판매했으며, Geometry Engine 기반의 IBM MicroChannel 버스(RS/6000)용 IrisVision 애드인 보드도 출시했다.[^1]
1988년에는 또한 Namco System 21[^33]과 Taito Air System[^34]으로 아케이드 기기에 최초의 전용 폴리곤 3D 그래픽 보드가 도입되었다.
1990년대
![[Tseng Labs ET4000/W32p]]
![[S3 Graphics ViRGE]]
![[Voodoo3 2000 AGP card]] 1990년대에는 Sun Microsystems, SGI 등의 전문 워크스테이션 3D 그래픽 하드웨어에서 다시 상당한 발전이 이루어졌다. 1992년 SGI에 의한 OpenGL의 도입은 표준 하드웨어 독립적 3D 프로그래밍 인터페이스의 길을 열었다.[^35][^2] 그러나 1990년대 중후반에 이르러 전문 하드웨어는 특히 텍스처 매핑에 있어 유사하거나 더 나은 성능을 더 낮은 비용으로, 그리고 최종 사용자에게 익숙한 플랫폼에서 제공하는 소비자 제품에 의해 서서히 대체되었다.[^2][^3]
1991년, S3 Graphics는 S3 86C911을 출시했는데, 설계자들은 약속하는 성능 향상을 나타내기 위해 포르쉐 911의 이름을 따서 명명했다.[^36] 86C911은 다양한 모방 제품을 탄생시켰으며, 1995년까지 모든 주요 PC 그래픽 칩 제조업체가 자사 칩에 2D 가속 지원을 추가했다.[^37] 고정 기능 Windows 가속기는 Windows 성능에서 값비싼 범용 그래픽 코프로세서를 능가했고, 이러한 코프로세서는 PC 시장에서 사라졌다.
1990년대 초중반에는 아케이드, 컴퓨터, 콘솔 게임에서 실시간 3D 그래픽이 점점 보편화되면서 하드웨어 가속 3D 그래픽에 대한 대중의 수요가 증가했다. 대중 시장 3D 그래픽 하드웨어의 초기 사례로는 Sega Model 1, Namco System 22, Sega Model 2와 같은 아케이드 시스템 보드와 Saturn, PlayStation, Nintendo 64와 같은 5세대 비디오 게임 콘솔이 있다. 1993년의 Sega Model 2와 SGI Onyx 기반 Namco Magic Edge Hornet Simulator 같은 아케이드 시스템은 소비자 그래픽 카드에 등장하기 수년 전에 이미 하드웨어 T&L(변환, 클리핑, 라이팅)이 가능했다.[^38][^39] 또 다른 초기 사례로는 일부 SNES 게임, 특히 Doom과 Star Fox에 사용된 RISC 기반 카트리지 내장 그래픽 칩인 Super FX 칩이 있다. 일부 시스템은 변환 가속을 위해 DSP를 사용했다. Sega Model 2 아케이드 시스템에 참여한[^40] Fujitsu는 1995년에 가정용 컴퓨터용 단일 LSI 솔루션에 T&L을 통합하는 작업을 시작했으며,[^41] 개인용 컴퓨터를 위한 최초의 3D 지오메트리 프로세서인 Fujitsu Pinolite는 1997년에 발표되었다.[^42] 가정용 비디오 게임 콘솔에서 최초의 하드웨어 T&L GPU는 1996년에 출시된 Nintendo 64의 Reality Coprocessor였다.[^43] 1997년, Mitsubishi는 워크스테이션과 Windows NT 데스크톱용으로 변환 및 라이팅이 가능한 GPU인 3Dpro/2MP를 출시했고,[^44] ATi는 이를 사용하여 1997년에 출시된 FireGL 4000 그래픽 카드에 적용했다.[^45]
"GPU"라는 용어는 1994년에 출시된 PlayStation 비디오 게임 콘솔에 탑재된 32비트 Sony GPU(Toshiba가 설계)를 지칭하기 위해 Sony가 만들었다.[^4]
2000년대
2002년 10월, 세계 최초의 Direct3D 9.0 가속기인 ATI Radeon 9700(R300으로도 알려짐)의 도입과 함께, 픽셀 및 버텍스 셰이더가 루프와 긴 부동 소수점 연산을 구현할 수 있게 되었고, CPU만큼 유연해지면서도 이미지 배열 연산에서는 수 자릿수 더 빨라졌다. 픽셀 셰이딩은 범프 매핑에 자주 사용되는데, 이는 텍스처를 추가하여 물체가 반짝이거나, 무광이거나, 거칠거나, 둥글거나 돌출된 것처럼 보이게 한다.[^46]
Nvidia GeForce 8 시리즈의 도입과 새로운 범용 스트림 프로세싱 유닛의 등장으로, GPU는 더욱 범용적인 컴퓨팅 장치가 되었다. 병렬 GPU는 CPU에 대한 컴퓨팅 영역을 잠식하고 있으며, GPU 컴퓨팅 또는 GPU에서의 범용 컴퓨팅을 뜻하는 GPGPU라 불리는 연구 하위 분야는 머신 러닝,[^47] 석유 탐사, 과학 이미지 처리, 선형 대수,[^48] 통계,[^49] 3D 복원, 스톡 옵션 가격 책정 등 다양한 분야에서 응용을 찾았다. GPGPU는 현재 컴퓨트 셰이더(예: CUDA, OpenCL, DirectCompute)라 불리는 것의 전신이었으며, 실제로는 알고리즘에 전달되는 데이터를 텍스처 맵으로 취급하고 적절한 픽셀 셰이더로 삼각형이나 쿼드를 그려 알고리즘을 실행함으로써 하드웨어를 어느 정도 남용했다. 이는 스캔 변환기와 같이 불필요한 유닛이 관여하게 되므로(삼각형 조작도 관련이 없으며—픽셀 셰이더를 호출하기 위한 것일 뿐) 약간의 오버헤드를 수반했다.
2007년에 처음 도입된[^50] Nvidia의 CUDA 플랫폼은 GPU 컴퓨팅을 위해 가장 널리 채택된 최초의 프로그래밍 모델이었다. OpenCL은 Khronos Group이 정의한 공개 표준으로, 이식성에 중점을 두고 GPU와 CPU 모두를 위한 코드 개발을 가능하게 한다.[^51] OpenCL 솔루션은 Intel, AMD, Nvidia, ARM이 지원하며, 2011년 Evans Data의 보고서에 따르면 OpenCL은 두 번째로 인기 있는 HPC 도구가 되었다.[^52]
2010년대
2010년, Nvidia는 Audi와 파트너십을 맺어 Tegra GPU를 사용하여 자동차 대시보드에 전력을 공급하고 자동차의 내비게이션 및 엔터테인먼트 시스템에 향상된 기능을 제공했다.[^53] 자동차에서의 GPU 기술 발전은 자율 주행 기술의 발전에 기여했다.[^54] AMD의 Radeon HD 6000 시리즈 카드는 2010년에 출시되었고, 2011년에 AMD는 모바일 장치용 6000M 시리즈 디스크리트 GPU를 출시했다.[^55] Nvidia의 Kepler 라인 그래픽 카드는 2012년에 출시되어 Nvidia 600 및 700 시리즈 카드에 사용되었다. 이 GPU 마이크로아키텍처의 특징으로는 전력 소비에 따라 비디오 카드의 클럭 속도를 높이거나 낮추는 기술인 GPU 부스트가 있었다.[^56] Kepler는 또한 NVENC 비디오 인코딩 가속 기술을 도입했다.
PS4와 Xbox One은 2013년에 출시되었으며, 둘 다 AMD의 Radeon HD 7850 및 7790 기반 GPU를 사용했다.[^57] Nvidia의 Kepler 라인 GPU에 이어 동일한 공정으로 제조된 Maxwell 라인이 출시되었다. Nvidia의 28nm 칩은 대만의 TSMC에서 28nm 공정으로 제조되었다. 과거의 40nm 기술과 비교하여 이 제조 공정은 전력 소비를 줄이면서 20%의 성능 향상을 가능하게 했다.[^58][^59] 가상 현실 헤드셋은 높은 시스템 요구 사양을 가지고 있었으며, 출시 당시 제조업체들은 GTX 970과 R9 290X 이상을 권장했다.[^60][^61] Pascal 마이크로아키텍처 기반 카드는 2016년에 출시되었다. GeForce 10 시리즈 카드가 이 세대의 그래픽 카드이다. 이전 마이크로아키텍처를 개선한 16 nm 제조 공정으로 만들어졌다.[^62]
2018년, Nvidia는 GPU에 레이 트레이싱 코어를 추가한 RTX 20 시리즈 GPU를 출시하여, 대중 시장 하드웨어에서 실시간 레이 트레이싱의 성능을 실현했다.[^5] AMD의 Polaris 11 및 Polaris 10 GPU는 14nm 공정으로 제조된다. 이들의 출시는 AMD 비디오 카드의 와트당 성능을 상당히 향상시켰다.[^63] AMD는 또한 Nvidia의 하이엔드 Pascal 카드에 대한 경쟁 제품으로 하이엔드 시장용 Vega GPU 시리즈를 출시했으며, Titan V와 마찬가지로 HBM2를 탑재했다.
2019년, AMD는 Graphics Core Next(GCN) 마이크로아키텍처/명령어 세트의 후속을 출시했다. RDNA라 명명되었으며, 이를 최초로 탑재한 제품은 Radeon RX 5000 시리즈 비디오 카드였다.[^6] 회사는 RDNA 마이크로아키텍처의 후속이 점진적 개선("리프레시")이 될 것이라고 발표했다. AMD는 하드웨어 가속 레이 트레이싱을 지원하는 RDNA 2 그래픽 카드인 Radeon RX 6000 시리즈를 공개했다.[^64] 2020년 후반에 출시된 이 제품 시리즈는 RX 6800, RX 6800 XT, RX 6900 XT로 구성되었다.[^65][^7] Navi 22 기반의 RX 6700 XT는 2021년 초에 출시되었다.[^66]
PlayStation 5와 Xbox Series X 및 Series S는 2020년에 출시되었으며, 각 시스템의 구현에서 점진적 개선과 서로 다른 GPU 구성을 갖춘 RDNA 2 마이크로아키텍처 기반 GPU를 사용한다.[^8][^67][^9]
2020년대
2020년대에 GPU는 인공지능 대규모 언어 모델에 필요한 방대한 데이터셋에서의 신경망 훈련과 같은 당황스러울 정도로 병렬적인 문제를 포함하는 계산에 점점 더 많이 사용되고 있다. 딥 러닝에 특화된 대부분의 현대 GPU의 전용 처리 코어는 4×4 행렬 곱셈과 나눗셈을 사용하여 상당한 FLOPS 성능 향상을 제공한다. 2017년에 출시된[^68] Nvidia의 Volta 마이크로아키텍처와 같은 초기 구현은 일부 애플리케이션에서 최대 128 TFLOPS의 결과를 달성했다.[^69]
이후 AI 가속 코어는 2018년 Nvidia의 Turing 마이크로아키텍처[^5]를 시작으로 텐서 코어라 명명되어 소비자 및 워크스테이션 마이크로아키텍처에서 널리 채택된 기능이 되었다. 원래 게이밍 성능 향상과 이미지 품질 개선을 위한 Deep Learning Super Sampling에 사용되었으며, 이후 Nvidia의 Broadcast 소프트웨어에서 음성 필터링 및 비디오 노이즈 제거와 같은 다양한 AI 기반 효과를 제공하는 데 사용되고 있다.
AMD는 RDNA 3 아키텍처에서 소비자용으로 동등한 "Matrix" 코어를 처음 구현했으며, Intel은 Alchemist 마이크로아키텍처를 시작으로 모든 Arc GPU에 동등한 "XMX" 코어를 구현했다.
GPU 기업
많은 기업이 다양한 브랜드명으로 GPU를 생산해 왔다. 2009년에는 인텔, 엔비디아, AMD/ATI가 각각 49.4%, 27.8%, 20.6%의 점유율로 시장을 선도하였다. 이 외에도 매트록스(Matrox)[^70]가 GPU를 생산하고 있다. 징자마이크로(Jingjia Micro) 등 중국 기업들도 내수 시장을 위한 GPU를 생산하고 있으나, 전 세계 매출 기준으로는 시장 선두 기업들에 뒤처지고 있다.[^10]
연산 기능
반도체 소자 제조 공정에서의 연결 경로 크기, 클록 신호 주파수, 다양한 온칩 메모리 캐시의 수와 크기 등 GPU 설계의 여러 요소가 실시간 렌더링 성능에 영향을 미친다. 또한 성능은 엔비디아 GPU의 스트리밍 멀티프로세서(SM), AMD GPU의 컴퓨트 유닛(CU), 인텔 Xe 기반 GPU의 Xe 코어 수에 의해서도 영향을 받는데, 이들은 GPU 칩 내에서 핵심 연산을 수행하는 온실리콘 프로세서 코어 유닛의 수를 나타내며, 일반적으로 GPU 내의 다른 SM/CU와 병렬로 작동한다. GPU 성능은 일반적으로 초당 부동소수점 연산 횟수(FLOPS)로 측정되며, 2010년대와 2020년대의 GPU는 통상 테라플롭스(TFLOPS) 단위의 성능을 제공한다. 이는 추정 성능 지표로, 다른 요인들이 실제 표시 속도에 영향을 줄 수 있다.[^71] ![The ATI HD5470 GPU (above, with copper [heatpipe attached) features UVD 2.1 which enables it to decode AVC and VC-1 video formats.]]
2D 그래픽스 API
초기 GPU는 GDI 및 DirectDraw와 같은 하나 이상의 2D 그래픽스 API를 지원하여 2D 가속을 제공하기도 하였다.[^72]
GPU 형태
용어
1970년대에 "GPU"라는 용어는 원래 그래픽스 프로세서 유닛(graphics processor unit)을 의미했으며, CPU와 독립적으로 작동하면서 그래픽 처리와 출력을 담당하는 프로그래밍 가능한 처리 장치를 설명했다.[^73][^74] 1994년에 소니는 플레이스테이션 콘솔의 도시바 설계 Sony GPU를 지칭하면서 이 용어를 (그래픽스 프로세싱 유닛이라는 의미로) 사용했다.[^4] 이 용어는 1999년 엔비디아가 지포스 256을 "세계 최초의 GPU"로 마케팅하면서 대중화되었다.[^75] 이는 "통합 변환, 조명, 삼각형 설정/클리핑 및 렌더링 엔진을 갖춘 단일 칩 프로세서"로 소개되었다.[^76] 경쟁사 ATI 테크놀로지스는 2002년 라데온 9700 출시와 함께 "비주얼 프로세싱 유닛"(VPU)이라는 용어를 만들었다.[^77] AMD Alveo MA35D는 2023년에 각각 5nm 공정을 사용하는 듀얼 VPU를 탑재했다.[^11]
개인용 컴퓨터에서 GPU의 두 가지 주요 형태는 전용 그래픽(외장 그래픽이라고도 함)과 통합 그래픽(공유 그래픽 솔루션, 통합 그래픽 프로세서(IGP), 또는 통합 메모리 아키텍처(UMA)라고도 함)이다.[^78]
전용 그래픽 처리 장치
전용 그래픽 처리 장치는 컴퓨터의 주 시스템 메모리에 의존하지 않고 GPU 전용 RAM을 사용한다. 이 RAM은 일반적으로 GDDR SDRAM과 같이 그래픽 카드의 예상 직렬 워크로드에 맞게 특별히 선택된다. 때때로 전용 외장 GPU를 갖춘 시스템은 "UMA" 시스템과 대비하여 "DIS" 시스템이라고 불렸다.[^12]
3dfx의 스캔라인 인터리브, 엔비디아의 SLI(Scalable Link Interface) 및 NVLink, AMD의 크로스파이어 등의 기술은 여러 GPU가 단일 화면을 위해 동시에 이미지를 그릴 수 있게 하여 그래픽에 사용 가능한 처리 능력을 향상시킨다. 그러나 이러한 기술은 점점 드물어지고 있는데, 대부분의 게임이 다중 GPU를 완전히 활용하지 못하고, 대부분의 사용자가 이를 구입할 여력이 없기 때문이다.[^13][^79][^80] 다중 GPU는 여전히 슈퍼컴퓨터(서밋 등)에서, 비디오 가속을 위한 워크스테이션(여러 비디오 동시 처리)[^81][^82][^83] 및 3D 렌더링,[^84] 시각 효과(VFX),[^85] 범용 그래픽 처리 장치(GPGPU) 워크로드 및 시뮬레이션,[^86] 그리고 AI에서 학습 가속을 위해 사용되고 있으며, 엔비디아의 DGX 워크스테이션 및 서버 라인업, 테슬라 GPU, 인텔의 폰테 베키오 GPU가 이에 해당한다.
통합 그래픽 처리 장치
![HDMI, VGA, DVI 출력 포트를 갖춘 통합 그래픽이 탑재된 [ASRock 메인보드.]]
통합 그래픽 처리 장치(IGPU)는 통합 그래픽, 공유 그래픽 솔루션, 통합 그래픽 프로세서(IGP), 또는 통합 메모리 아키텍처(UMA)라고도 하며, 전용 그래픽 메모리 대신 컴퓨터 시스템 RAM의 일부를 사용한다. IGP는 메인보드의 노스브리지 칩셋의 일부로 통합되거나,^87 AMD의 APU(Accelerated Processing Unit)나 인텔 HD 그래픽스처럼 CPU와 동일한 다이(집적 회로)에 통합될 수 있다. 특정 메인보드에서는,[^88] AMD의 IGP가 전용 사이드포트 메모리, 즉 GPU 전용으로 할당된 별도의 고정 고성능 메모리 블록을 사용할 수 있다. 현재 통합 그래픽을 탑재한 컴퓨터는 전체 PC 출하량의 약 90%를 차지한다.[^89] 이는 전용 그래픽 처리보다 구현 비용이 낮지만, 성능은 떨어지는 경향이 있다. 역사적으로 통합 처리는 3D 게임이나 그래픽 집약적 프로그램에는 부적합한 것으로 간주되었으나, Adobe Flash와 같은 덜 집약적인 프로그램은 실행할 수 있었다. 이러한 IGP의 예로는 2004년경 SiS와 VIA의 제품들이 있다.[^90] 그러나 AMD APU(Accelerated Processing Unit)와 인텔 그래픽스 테크놀로지(HD, UHD, Iris, Iris Pro, Iris Plus, Xe-LP 등)와 같은 현대의 통합 그래픽 프로세서는 2D 그래픽이나 부하가 낮은 3D 그래픽을 처리할 수 있다.
GPU 연산은 메모리 집약적이기 때문에, 통합 처리는 전용 비디오 메모리가 거의 없거나 전혀 없어 상대적으로 느린 시스템 RAM을 두고 CPU와 경쟁할 수 있다. IGP는 현재 최대 초당 128기가바이트의 대역폭을 가진 시스템 메모리를 사용하는 반면, 외장 그래픽 카드는 비디오 랜덤 액세스 메모리(VRAM)와 GPU 코어 사이에 초당 1,000기가바이트 이상의 대역폭을[^91] 가질 수 있다. 이 메모리 버스 대역폭은 GPU 성능을 제한할 수 있지만, 다중 채널 메모리로 이 결함을 완화할 수 있다.[^14] 구형 통합 그래픽 칩셋은 하드웨어 변환 및 조명 기능이 없었지만, 최신 칩셋에는 이 기능이 포함되어 있다.[^92][^93]
통합 그래픽을 탑재한 최신 AMD 프로세서,[^94] 통합 그래픽을 탑재한 최신 인텔 프로세서,[^95] Apple 프로세서, PS5 및 Xbox Series(기타 포함) 등 "통합 메모리 아키텍처"(UMA) 시스템에서는 CPU 코어와 GPU 블록이 동일한 RAM 풀과 메모리 주소 공간을 공유한다.
스트림 처리 및 범용 GPU (GPGPU)
범용 그래픽 처리 장치(GPGPU)를 스트림 프로세서 또는 벡터 프로세서의 변형으로 사용하여 컴퓨트 커널을 실행하는 것이 일반적이다. 이는 최신 그래픽 가속기의 셰이더 파이프라인이 가진 막대한 연산 능력을 범용 컴퓨팅 능력으로 전환한다. 대규모 벡터 연산이 필요한 특정 응용 분야에서 이는 기존 CPU보다 수 자릿수 더 높은 성능을 낼 수 있다. 두 대 외장 GPU 설계 기업인 AMD와 엔비디아는 다양한 응용 분야에서 이 접근 방식을 추구하고 있다. 엔비디아와 AMD는 스탠퍼드 대학교와 협력하여 단백질 접힘 계산을 위한 Folding@home 분산 컴퓨팅 프로젝트의 GPU 기반 클라이언트를 개발했다. 특정 상황에서 GPU는 이러한 응용 프로그램에서 전통적으로 사용되던 CPU보다 40배 빠르게 계산한다.[^96][^97]
GPU 기반 고성능 컴퓨터는 대규모 모델링에서 중요한 역할을 한다. 세계에서 가장 강력한 슈퍼컴퓨터 10대 중 3대가 GPU 가속을 활용하고 있다.[^98]
2005년 이후로 GPU가 제공하는 성능을 진화 연산 전반에, 특히 유전 프로그래밍에서의 적합도 평가 가속에 활용하는 것에 대한 관심이 높아졌다. 대부분의 접근 방식은 호스트 PC에서 선형 또는 트리 프로그램을 컴파일하고 실행 파일을 GPU로 전송하여 실행한다. 일반적으로 성능 이점은 GPU의 단일 명령어 다중 데이터(SIMD) 아키텍처를 사용하여 단일 활성 프로그램을 많은 예제 문제에서 동시에 병렬로 실행할 때만 얻어진다.[^99] 프로그램을 컴파일하지 않고 대신 GPU로 전송하여 그곳에서 해석하는 방식으로도 상당한 가속을 얻을 수 있다.[^100]
외장 GPU (eGPU)
GPU는 노트북의 일부 외부 버스에 연결할 수 있다. PCI Express가 이 목적으로 사용되는 유일한 버스이다. 포트는 예를 들어 ExpressCard 또는 mPCIe 포트(PCIe ×1, 각각 최대 5 또는 2.5기가비트/초), Thunderbolt 1, 2, 또는 3 포트(PCIe ×4, 각각 최대 10, 20, 또는 40기가비트/초), Thunderbolt 호환 USB4 포트, 또는 OCuLink 포트일 수 있다. 이러한 포트는 특정 노트북 시스템에서만 사용할 수 있다.[^101] eGPU 인클로저는 강력한 GPU가 수백 와트를 소비할 수 있기 때문에 자체 전원 공급 장치(PSU)를 포함한다.[^102]
에너지 효율
판매
2013년에 전 세계적으로 4억 3,830만 개의 GPU가 출하되었으며, 2014년 예측치는 4억 1,420만 개였다. 그러나 2022년 3분기까지 PC GPU 출하량은 약 7,550만 대로 전년 대비 19% 감소하였다.[^103][^104]
같이 보기
- UALink
- 텍스처 매핑 유닛 (TMU)
- 렌더 출력 유닛 (ROP)
- 무차별 대입 공격
- 컴퓨터 하드웨어
- 컴퓨터 모니터
- GPU 캐시
- GPU 가상화
- 매니코어 프로세서
- 물리 처리 장치 (PPU)
- 텐서 처리 장치 (TPU)
- 레이 트레이싱 하드웨어
- 단일 명령어, 다중 스레드 (SIMT)
- 소프트웨어 렌더링
- 비전 처리 장치 (VPU)
- 벡터 프로세서
- 비디오 카드
- 비디오 디스플레이 컨트롤러
- 비디오 게임 콘솔
- AI 가속기
- GPU 벡터 프로세서 내부 기능
하드웨어
- AMD 그래픽 처리 장치 목록
- Nvidia 그래픽 처리 장치 목록
- Intel 그래픽 처리 장치 목록
- 개별 및 통합 그래픽 처리 장치 목록
- Intel GMA
- Larrabee
- Nvidia PureVideo – DXVA를 통해 하드웨어 GPU에서 비디오 디코딩을 가속하기 위해 Nvidia가 그래픽 칩에 사용하는 비트스트림 기술.
- SoC
- UVD (통합 비디오 디코더) – DXVA를 통한 하드웨어(GPU) 디코딩을 지원하기 위한 ATI의 비디오 디코딩 비트스트림 기술
API
- OpenGL API
- OpenCL API
- OpenVX API
- TensorFlow Lite
- Mantle (API)
- Metal (API) ** Core ML
- Vulkan (API)
- Direct3D ** DirectX 비디오 가속 (DxVA) Microsoft Windows 운영 체제용 API. ** DirectML
- Direct2D ** DirectDraw ** DirectWrite
- 비디오 가속 API (VA API)
- VDPAU (Unix용 비디오 디코드 및 프레젠테이션 API)
- X-Video 비트스트림 가속 (XvBA), MPEG-2, H.264 및 VC-1을 위한 DXVA의 X11 대응 기술
- X-Video 모션 보상 – MPEG-2 비디오 코덱 전용 X11 대응 기술
응용 분야
- GPU 클러스터
- Mathematica – CUDA 및 OpenCL GPU 실행을 위한 내장 지원 포함
- GPU 기반 분자 모델링
- Deeplearning4j – Java용 오픈 소스 분산 딥러닝
출처
-
외부 링크
- NVIDIA – GPU 컴퓨팅이란?
- GPU Gems 도서 시리즈
- – 그래픽 하드웨어의 역사
- GPU의 작동 원리
- GPU Caps Viewer – 비디오 카드 정보 유틸리티
- ARM Mali GPU 개요
참고 문헌
[^1]: GPU의 역사 - 발명까지의 과정. Springer
[^2]: 실리콘 그래픽스: 사라졌지만 잊히지 않은. (2022년 11월 10일)
[^3]: 실리콘 그래픽스 회사에 무슨 일이 있었나?. Quantum Zeitgeist. (2024년 7월 5일)
[^4]: Cite web url=https://www.computer.org/publications/tech-news/chasing-pixels/is-it-time-to-rename-the-gpu title = GPU의 이름을 바꿀 때가 되었는가? | IEEE Computer Society date=2018년 7월 17일
[^5]: Sarkar, Samit. Nvidia RTX 2070, RTX 2080, RTX 2080 Ti GPU 공개: 사양, 가격, 출시일. (2018년 8월 20일)
[^6]: AMD, 컴퓨텍스 2019 기조연설에서 차세대 선도 제품 발표. AMD
[^7]: Judd, Will. AMD, 레이 트레이싱과 RTX를 능가하는 성능을 갖춘 Radeon 6000 그래픽 카드 3종 공개. (2020년 10월 28일)
[^8]: Funk, Ben. 소니 PS5 완전 분해: RDNA 2의 내부 구조 상세 공개. (2020년 12월 12일)
[^9]: Smith, Ryan. 마이크로소프트, Xbox Series X 추가 기술 사양 공개: Zen 2 + RDNA 2, 12 TFLOPS GPU, HDMI 2.1 및 커스텀 SSD
[^10]: Pan, Che. 블랙리스트에 오른 Jingjia Micro, 최신 칩 자급자족 움직임으로 우시에서 GPU 개발 예정. (2023년 7월 31일)
[^11]: cite web title=AMD, 인터랙티브 스트리밍 시대를 위한 5nm ASIC 기반 가속기 출시 author=Child, J. url=https://www.allaboutcircuits.com/news/amd-rolls-out-5-nm-asic-based-accelerator-for-t
[^12]: cite web title=Linux 장치 드라이버용 Nvidia Optimus 문서 url=https://nouveau.freedesktop.org/Optimus.html publisher=freedesktop date=2023년 11월 13일 access-date=2023년 12월 24일
[^13]: cite web title=크로스파이어와 SLI 시장은 30만 대에 불과 author=Abazovic, F. url=https://www.fudzilla.com/news/graphics/38134-crossfire-and-sli-market-is-just-300-000-units publisher=fudzilla
[^14]: Coelho, Rafael. 듀얼 채널 메모리가 내장 그래픽 성능에 차이를 만드는가?. (2016년 1월 18일)
[^15]: Hague, James. 전용 게임 콘솔은 왜 존재하는가?. (2013년 9월 10일)
[^16]: mame/8080bw.c at master · mamedev/mame · GitHub
[^17]: mame/galaxian.c at master · mamedev/mame · GitHub
[^18]: mame/galaxian.c at master · mamedev/mame · GitHub
[^19]: Springmann, Alessondra. 아타리 2600 분해: 구형 콘솔 내부에는 무엇이 있는가?
[^20]: 6502, ANTIC, CTIA/GTIA, POKEY, FREDDIE 칩이란 무엇인가?
[^21]: Wiegers, Karl E.. 아타리 디스플레이 리스트 인터럽트. (1984년 4월)
[^22]: Wiegers, Karl E.. 아타리 미세 스크롤링. (1985년 12월)
[^23]: 지오메트리 엔진: 그래픽을 위한 VLSI 지오메트리 시스템. [[Stanford University]]. (1982)
[^24]: 컴퓨터 그래픽의 발전 II. Springer
[^25]: Anderson, Marian. 유명 그래픽 칩: NEC μPD7220 그래픽 디스플레이 컨트롤러. (2018-07-18)
[^26]: Riddle, Sean. 블리터 정보
[^27]: Wolf, Mark J. P.. 충돌 이전: 초기 비디오 게임의 역사. Wayne State University Press. (2012년 6월)
[^28]: Anderson, Marian. GPU의 역사: 히타치 ARTC HD63484. (2018-10-07)
[^29]: Cite web url=https://www.computer.org/publications/tech-news/chasing-pixels/Famous-Graphics-Chips-IBMs-professional-graphics-the-PGC-and-8514A/Famous-Graphics-Chips-TI-TMS34010-and-VRAM title = 유명
[^31]: 박물관 ~ Sharp X68000. Old-computers.com
[^32]: 하드코어 게이밍 101: 레트로 일본 컴퓨터: 게이밍의 최후의 개척지
[^33]: System 16 – 남코 System 21 하드웨어 (남코)
[^34]: System 16 – 타이토 에어 시스템 하드웨어 (타이토)
[^36]: S3 비디오 보드. (1992년 5월 18일)
[^37]: Singer, Graham. 숫자가 의미하는 것. Techspot. (1993년 2월 23일)
[^38]: System 16 – 남코 매직 엣지 호넷 시뮬레이터 하드웨어 (남코)
[^39]: MAME – src/mame/video/model2.c
[^40]: System 16 – 세가 모델 2 하드웨어 (세가)
[^41]: 3D 그래픽 프로세서 칩 세트
[^42]: 후지쯔, 세계 최초 3차원 지오메트리 프로세서 개발
[^43]: 닌텐도 64는 역대 최고의 게임 장치 중 하나이다
[^45]: VGA Legacy MKIII – Diamond Fire GL 4000 (미쓰비시 3DPro/2mp)
[^46]: cite web url = https://www.blacksmith-studios.dk/projects/downloads/bumpmapping_using_cg.php title = CG를 이용한 범프 매핑 (제3판) first = Søren last = Dreijer access-date = 2007-05-30
[^47]: Raina, Rajat. 제26회 국제 기계 학습 연례 학술대회 논문집 – ICML '09. Dl.acm.org. (2009-06-14)
[^48]: [https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.94.1988&rep=rep1&type=pdf "수치 알고리즘의 GPU 구현을 위한 선형 대수 연산자"], Kruger and Westermann, International Co
[^49]: Liepe. ABC-SysBio—GPU 지원이 포함된 Python 기반 근사 베이지안 계산
[^50]: Sanders, Jason. CUDA 예제: 범용 GPU 프로그래밍 입문, 휴대용 문서. Addison-Wesley Professional. (2010-07-19)
[^51]: OpenCL – 이기종 시스템의 병렬 프로그래밍을 위한 개방형 표준
[^52]: Handy, Alex. AMD, HPC 분야에서 OpenCL 입지 확대에 기여. (2011-09-28)
[^53]: Teglet, Traian. 모든 아우디 2010 차량에 NVIDIA Tegra 탑재. (2010년 1월 8일)
[^54]: 수업 시작 – Nvidia의 자율주행 시스템은 관찰을 통해 학습한다. (2016-04-30)
[^55]: AMD Radeon HD 6000M 시리즈 – ATI라고 부르지 마세요!
[^56]: Nvidia GeForce GTX 680 2GB 리뷰
[^57]: Xbox One 대 PlayStation 4: 어떤 게임 콘솔이 최고인가?. (2015년 11월 20일)
[^58]: Kepler TM GK110. NVIDIA Corporation. (2012)
[^59]: 대만 반도체 제조 회사(TSMC)
[^60]: HTC Vive용 PC 조립하기. (2016-06-16)
[^61]: VIVE 호환 컴퓨터. Vive
[^62]: Nvidia의 거대한 Pascal GPU는 최첨단 기술과 150억 개의 트랜지스터로 가득 차 있다. (2016년 4월 5일)
[^63]: AMD RX 480, 470 및 460 Polaris GPU, '가장 혁신적인 성능 도약'을 제공할 예정. (2016-01-16)
[^64]: Garreffa, Anthony. AMD, 2020년에 차세대 RDNA GPU 도입 예정, 일반적인 Navi '리프레시'가 아님. (2020-01-29)
[^65]: AMD, Radeon RX 6000 카드 성능 수치 티저 공개: 3080을 겨냥?. (2020-10-08)
[^66]: Mujtaba, Hassan. AMD Radeon RX 6700 XT 'Navi 22 GPU' 커스텀 모델, 최대 2.95 GHz 부스트 보고. (2020-11-30)
[^67]: Gartenberg, Chaim. 소니, PS5 전체 하드웨어 사양 공개. (2020년 3월 18일)
[^68]: NVIDIA Volta AI 아키텍처
[^69]: Smith, Ryan. NVIDIA Volta 공개: GV100 GPU 및 Tesla V100 가속기 발표
[^70]: Matrox 그래픽 – 제품 – 그래픽 카드. Matrox.com
[^71]: cite web url = https://www.extremetech.com/gaming/269335-how-graphics-cards-work title = 그래픽 카드는 어떻게 작동하는가? first = Joel last = Hruska date = 2021년 2월 10일 access-date = 7월
[^72]: CL-GD5446 64비트 비주얼미디어 가속기 예비 데이터 북. Cirrus Logic. (1996년 11월)
[^73]: Barron, E. T.. 제6회 마이크로프로그래밍 연례 워크숍 회의록 – MICRO 6. (1973년 9월)
[^74]: Levine, Ken. VGI 3400용 핵심 표준 그래픽 패키지. (1978년 8월)
[^75]: NVIDIA, 세계 최초의 그래픽 처리 장치 출시: GeForce 256. Nvidia. (1999년 8월 31일)
[^76]: 그래픽 처리 장치 (GPU). Nvidia. (2009년 12월 16일)
[^77]: Pabst, Thomas. ATi, Radeon 9700으로 3D 기술 리더십 장악. Tom's Hardware. (2002년 7월 18일)
[^78]: 선택 도우미: 비디오 카드. [[Dell]]
[^79]: Cite web url=https://thetechaltar.com/is-multi-gpu-dead/ title = 멀티 GPU는 죽었는가? date = 2018년 1월 7일
[^80]: Cite web url=https://www.techradar.com/news/nvidia-sli-and-amd-crossfire-is-dead-but-should-we-mourn-multi-gpu-gaming title=Nvidia SLI와 AMD CrossFire는 죽었다 – 하지만 멀티 GPU 게이밍을 애도해야 하는가
[^81]: Cite web url=https://devblogs.nvidia.com/nvidia-ffmpeg-transcoding-guide/ title=NVIDIA FFmpeg 트랜스코딩 가이드 date=2019년 7월 24일
[^82]: 하드웨어 선택 및 구성 가이드 DaVinci Resolve 15. BlackMagic Design. (2018)
[^83]: 권장 시스템: DaVinci Resolve 권장 시스템
[^84]: V-Ray Next 멀티 GPU 성능 스케일링. (2019년 8월 20일)
[^85]: Cite web url=https://www.chaosgroup.com/vray/nuke title=Nuke용 V-Ray – 합성 작업자를 위한 레이 트레이싱 렌더링 | Chaos Group
- Cite web url=https://www.foundry.com/products/nuke/requirem
[^86]: Cite web url=https://foldingathome.org/faqs/gpu2-common/frequently-asked-questions-common-ati-nvidia-gpu2-clients-2/multi-gpu-support/ title = 멀티 GPU 지원은 어떻게 되나요? – Folding@home
[^88]: GA-890GPA-UD3H 개요
[^89]: AnandTech – μATX 파트 2: Intel G33 성능 리뷰
[^90]: Xbit Labs: 소켓 478 및 소켓 A 플랫폼용 최신 내장 그래픽 칩셋 7종 종합 비교
[^91]: cite web title=GPU 메모리 대역폭 발전 2007-2025: NVIDIA AMD Intel url=https://gpus.axiomgaming.net/memory-bandwidth-statistics website=Axiom Gaming access-date=2025년 8월 17일
[^92]: 그래픽 집약적 응용 프로그램을 위한 내장 그래픽 솔루션
[^93]: 그래픽 집약적 응용 프로그램을 위한 내장 그래픽 솔루션
[^94]: Shimpi, Anand Lal. AMD, HSA 로드맵 공개: 2013년 CPU/GPU 통합 메모리, 2014년 HSA GPU
[^95]: Lake, Adam T.. OpenCL™ 1.2 최대한 활용하기: ...을 통해 성능을 높이는 방법
[^96]: 스탠퍼드 대학, GPU에 맞춰 Folding@home 최적화. (2006년 9월 29일)
[^97]: Folding@Home – GPGPU
[^98]: Top500 목록 – 2012년 6월 | TOP500 슈퍼컴퓨터 사이트. Top500.org
[^99]: 스탠퍼드 강의: 다중 코어 GPU에서의 CUDA 확장형 병렬 프로그래밍. (2008년 7월)
[^100]: GPU 그래픽 카드에서의 유전 프로그래밍을 위한 SIMD 인터프리터
[^101]: 외장 노트북 그래픽 어댑터 만드는 방법
[^102]: Cite web url=https://www.gamingscan.com/best-external-graphics-card/ title = 2020년 최고의 외장 그래픽 카드 (EGPU) [완전 가이드] date = 2020년 3월 16일
[^103]: GPU Q3'22, 2009년 경기침체 이후 가장 큰 분기 대비 하락폭 기록. (2022-11-20)
[^104]: 그래픽 칩 시장에 활기 조짐. TG Daily. (2014년 8월 20일)
관련 인사이트

공장의 뇌는 어떻게 생겼는가 — 제조운영 AI 아키텍처 해부
지식관리, 업무자동화, 의사결정지원 — 따로 보면 다 있던 것들입니다. 제조 AI의 진짜 차이는 이 셋이 순환하면서 '우리 공장만의 지능'을 만든다는 데 있습니다.

그 30분을 18년 동안 매일 반복했습니다 — 품질팀장이 본 AI Agent
18년차 품질팀장이 매일 아침 30분씩 반복하던 데이터 분석을 AI Agent가 3분 만에 해냈습니다. 챗봇과는 완전히 다른 물건 — 직접 시스템에 접근해서 데이터를 꺼내고 분석하는 AI의 현장 도입기.

ERP 20년, 나는 왜 AI를 얹기로 했나
ERP 20년차 제조IT본부장의 고백: 3,200만 행의 데이터가 잠들어 있었다. ERP를 바꾸지 않고 AI를 얹자, 일주일 걸리던 불량 분석이 수 초로 줄었다.