전 세계 인공지능(AI) 칩의 90% 이상을 생산하는 엔비디아,
연례 개발자콘퍼런스 GTC 2024
차세대 반도체 ‘B200’과 이를 응용한 AI 플랫폼 ‘GB200’을 공개
새로운 그래픽처리장치(GPU) '블랙웰'을 기반으로 한 차세대 AI 반도체 'B100'을 공개
**블랙웰은 게임 이론과 통계학을 전공한 수학자이자 흑인 최초로 미국국립과학원에 입회한 데이비드 헤롤드 블랙웰을 기리기 위해 붙인 이름
새 플랫폼 ‘블랙웰’을 기반으로 한 AI용 신형 그래픽처리장치(GPU) B100·B200을 공개
블랙웰은 2년 전 발표해한 ‘호퍼’ 아키텍처(설계 방식)의 후속 기술
'B100'은 블랙웰 시리즈의 가장 기본적인 제품
엔비디아의 주력이자 현재 AI 훈련에 가장 적합한 반도체로 꼽히는 H100보다 연산 처리 속도가 2.5배 빠른 차세대 AI 칩
성능이 향상된 건 트랜지스터 개수 차이 때문.
H100의 트랜지스터는 800억 개, B100은 2080억 개.
다만 한 칩에 많은 양의 트랜지스터를 넣을 수 없어 두 개의 GPU를 연결해 하나의 칩으로 작동하게 하는 방식(B200)을 적용, 따라서 B200이 기본 칩셋
엔비디아는 이날 블랙웰 시리즈 중 하나로 대규모 연산이 가능한 '수퍼칩'도 공개
B200 GPU 2개에 자체 중앙처리장치(CPU) '그레이스'로 구성된 'GB200'
GB200은 H100보다 최대 30배 거대언어모델(LLM) 추론 성능이 향상.
제품은 올해 말 출시돼 내년부터 전 세계 주요 AI 데이터 센터에 탑재될 것으로 전망
젠슨 황은 특히 “블랙웰은 칩이 아니라 플랫폼의 이름이다”고 밝혔다.
엔비디아가 단순히 GPU칩 공급업체가 아니라 마이크로소프트(MS), 애플처럼 소프트웨어를 구축할 수 있는 플랫폼 기업으로 거듭나겠다고 강조
엔터프라이즈 소프트웨어 구독 모델에 님(NIM)
NIM을 사용하면 추론이나 AI 소프트웨어 실행 프로세스에 구형 엔비디아 GPU를 더 쉽게 사용
NIM을 활용하면 AI모델 훈련에 적은 전력을 사용
이같은 전략은 엔비디아 기반 서버를 구매하는 고객이 연간 GPU당 4500달러의 엔비디아 엔터프라이즈 소프트웨어 구독모델에 가입하도록 유도하기 위한 차원
1
엔비디아 칩 블랙웰(B200)
B200은 기존 크기의 칩 2개를 하나로 묶은 형태
엔비디아의 신형 그래픽처리장치(GPU) 칩과 칩, 그리고 HBM을 하나의 칩으로 묶어 연결하기 위해서는 정교한 첨단 패키징(조립) 기술 분야 선두는 TSMC로,
B200, TSMC의 ‘CoWoS 기술’을 적용.
패키징 기술은 애플·엔비디아가 반도체 생산을 TSMC에 맡기는 가장 큰 이유로 꼽힌다.
패키징 기술을 잘 활용하면 반도체 성능을 끌어올리고 전력 소모를 크게 줄일 수 있다.
**다시 설명
블랙웰 GPU는 대만 TSMC의 4나노급 공정(4NP)으로 만든 반도체 다이(Die) 두 개를 연결해 만든 칩이며 2천80억 개의 트랜지스터를 집적했다.
다이 두 개는 초당 10TB(테라바이트)의 데이터를 주고 받으며 하나의 칩처럼 작동한다.
최대 576개의 GPU 사이에서 양방향으로 초당 1.8TB 데이터를 주고 받는 연결 통로인 5세대 NV링크, 장시간 구동되는 데이터센터 환경에서 GPU와 메모리 신뢰성을 검증하는 AI 기반 RAS 엔진, 민감한 데이터를 암호화하고 신뢰성을 보장하는 시큐어 AI 등이 내장됐다.
2
엔비디아 칩 AI 플랫폼 ‘GB200’
- B100은 2080억개의 트랜지스터를 탑재한 세계에서 가장 강력한 칩
- 호퍼 GPU(기존 H100, 800억개)의 2.5배 수준
- 전류를 제어하는 역할을 하는 트랜지스터가 많을수록 연산 속도가 빨라지고 전력 소모가 줄어든다.
- 기술적 한계로 2개의 GPU를 연결해 하나의 칩처럼 작동
- 대만 반도체 파운드리(위탁생산) 기업 TSMC 공정으로 생산
- 칩 하나당 가격은 5만 달러 이상
* 기존 H100은 칩당 2만5000달러~4만달러
**다시 설명
블랙웰 두 개와 그레이스(Grace) CPU 한 개로 GB200이 구성된다.
이를 36개 모은 GB200 NVL72는 초당 1.4엑사플롭스 AI 연산이 가능하며 HBM3e 메모리를 30TB 내장한다. 엔비디아는 H100 36개로 구성된 기존 시스템 대비 LLM(거대언어모델) 처리 속도를 최대 30배 향상했다고 밝혔다.
3
GB200 NVL72 슈퍼칩
엔비디아는 ‘슈퍼칩’ 36개를 쌓아 대규모 연산에 최적화한 시스템(GB200 NVL72)을 기업들에게 판매할 계획
슈퍼칩은 블랙웰 GPU 2개와 자체 중앙처리장치(CPU) 1개를 결합.
이 시스템은 대형언어모델(LLM) 추론 과정에서 호퍼 기반 H100 대비 최대 30배의 성능 향상을 제공하고, 비용과 에너지 소비를 최대 25배까지 줄여준다
최대 10조개의 파라미터(매개변수)로 확장되는 AI 모델에 대한 훈련과 실시간 추론을 지원.
젠슨 황은 매개변수 1.8조개의 GPT 모델을 훈련하는 데 전작 호퍼의 경우 90일간 8000개의 GPU와 15㎿이 필요
블랙웰은 같은 기간 GPU 2000개와 전력 4㎿만 필요
구글, 메타, 마이크로소프트, 오픈AI 등이 올해 연말 출시될 블랙웰을 도입할 것
AI 반도체 시장 점유율이 80% 이상인 것으로 알려진 엔비디아는 블랙웰을 통해 AMD, 인텔 등 후발주자들의 추격에 맞선다는 전략
엔비디아 블랙웰 플랫폼
1) B100(블랙웰칩) 기본, 2개묶어서 B200 칩 제조
(물리적으로 B100 연결필요 , 애플 M1울트라칩처럼)
2) B200칩이 기본이 됨
3) GB200 = (B200) 2개 + 그레이스(Grace) CPU 1개
4) GB200 NVL72 슈퍼칩 : GB200칩 36개
4
엔비디아의 H200 후속 반도체 B200도 전 세계 파운드리 시장 1위 TSMC가 생산.
B200은 TSMC의 4나노미터(㎚·1㎚=10억 분의 1m) 공정에서 생산
최첨단인 3나노 공정 팹이 포화상태인 TSMC의 생산 능력을 감안해 4나노에서 생산,
4나노 생산라인 엔비디아가 선점
올해 퀄컴·미디어텍·AMD 등 주요 고객사가 처음으로 3나노 공정으로 칩 생산
2023년 TSMC 파운드리 매출의 11%를 차지한 엔비디아의 비중이 TSMC의 기존 1위 고객사 애플(25%)과 5년 내에 비슷해질 전망
5
HBM(고대역폭메모리)은 D램을 수직으로 쌓아 저장용량과 전송 속도를 획기적으로 개선한 메모리 반도체
B200에 5세대 HBM인 HBM3E가 탑재.
B200 칩 하나에 총 8개의 HBM3E 연결.
현재 SK하이닉스와 미국 마이크론이 HBM3E를 양산. SK하이닉스, B200 공개에 맞춰 HBM3E 8단을 세계 최초로 양산, 3월 말부터 공급 예정
SK하이닉스는 직전 HBM3에 이어 HBM3E도 가장 먼저 엔비디아에 공급
마이크론 2월 말 엔비디아 제품에 탑재될 HBM3E 양산을 시작
댓글