본문 바로가기
기술 자료/기타 기술자료

[GPU] NVIDIA A100과 그 대안인 L40S에 대한 비교

by 다인엔시스 2024. 2. 8.

 

안녕하세요.

글로벌 IT Service Leader 주식회사 #다인엔시스 입니다.

 

서버 및 워크스테이션, GPU 서버 구매 관련 문의는 언제든지 부담없이 연락 부탁 드립니다. ^^

 

* 제품 및 구매 견적 문의

영업부: 02-719-2012 / sales@dainnsys.com

 

 

금일은 작년부터 시작해서 GPU 서버 및 워크스테이션 시장과 언론에서 가장 핫햇던 GPU 모델인 NVIDIA  A100 모델의 대항마로 L40S 모델에 대해 비교 분석해 보는 시간을 갖도록 하겠습니다.

 

여러분들도 아시겠지만 NVIDIA A100 GPU의 경우 최근들어 #AI,#딥러닝,#머신러닝 등의 붐을 등에 업고 엄청난 품귀 현상을 경험 했는데요...

 

A100은 2021년 출시되어 이미 출시된지 꽤 많은 시간이 흘렀고 단종 이야기가 나오고 있으며(이미 단종 되었다고 합니다.), 시장에서의 품귀 현상과 더불어 엄청난 단가 상승으로 인하여 수급에 많은 어려움이 있는 상황 입니다.

 

그에 대한 대안으로 작년 10월경에 새롭게 등장한 NVIDIA L40S 란 신규 모델이 가성비가 좋다는 소문이 있어 금일 분석해 보고자 합니다.

 

 

먼저 A100 과 L40S의 상세 스펙에 대해서 알아 보도록 하겠습니다.

(상세한 내용을 확인 하실 분은 하기에 관련 자료를 업로드 해드리니 다운로드 하셔서 확인 부탁 드립니다.)

 

 

참고 자료 : NVIDIA A100 ,L40S 데이터 시트 및 관련 자료

 

NVIDIA A100 DataSheet.pdf
0.47MB
NVIDIA A100 Product Brief.pdf
0.38MB
NVIDIA L40S DataSheet.pdf
0.16MB
NVIDIA L40S Product Brief.pdf
0.51MB

 

 

 

NVIDIA A100 Specification

 

NVIDIA A100 GPU Accelerator

 

 

 

 

NVIDIA L40S Specification

 

NVIDIA L40S GPU Accelerator

 

 

 

 

 

NVIDIA A100과 L40S의 비교 및 차이점

NVIDIA  A100과 L40S는 PCI-Express Gen4 규격을 사용 한다는 점과 그에 따른 대역폭은 64GB/s 로 동일 합니다.

하지만 메모리 스펙에서의 차이가 있는데요..

 

A100은 #HBM2e라는 고대역폭 메모리(High Bandwidth Memory)를 사용 하고 있으며,

L40S의 경우 GDDR6 메모리를 사용 하고 있어 L40S에 비해서 A100이 메모리에 있어서는 성능 우위를 보이고 있습니다.

 

(알려진 바에 의하면 A100에 들어가는 메모리는 전량 SK Hynix에서 공급 하는 것으로 알려져 있습니다.)

 

 

* 참고 자료 : HBM 메모리 관련 자료 링크 <- 클릭

 

하지만!! A100이 HBM 고대역폭 메모리를 사용함으로 인하여 L40S에 비해 높은 단가를 보이고 있음을 알 수 있습니다.

 

성능도 물론 중요 하지만 성능대비 가격도 시장에서 무시 할 수 없는 요소라고 볼 수 있습니다.

 

 

 

NVIDIA A100과 L40S의 성능 비교

제가 GPU에 대해 알아 보면서 FP16 , FP32 등의 용어를 알게 되었는데 FP16이 무엇이고 언제 사용 되는지에 대해 간략하게 정리해 보도록 하겠습니다.

 

FP16,  FP32는 모두 수치형식(numerical format)으로, 컴퓨터에서 부동 소수점 수(floating-point numbers)를 표현하는 방법 중 하나 입니다.

 

FP16은 Half-Precision의 준말로서, 16비트 부동 소수점 형식을 나타내며, 32비트 부동 소수점 형식을 사용하는 FP32에 비해 정밀도가 낮아서 모델의 정확도가 떨어 질 수 있습니다.

 

따라서, 모델을 훈련 할 때는 일반적으로 FP32를 사용 하고, 추론(inference)단계에서는 FP16을 사용하여 연산 속도를 높이는 경우가 많이 있습니다.

 

간단히 말해서, FP16은 모델을 더 빠르게 실행하고 메모리를 절약하는데 도우이 되는 부동 소수점 형식이나 정확도는 낮아 질 수 있으므로 모델의 특성에 따라 그게 적합한 형식의 사용 여부를 결정 해야 합니다.

 

 

A100이 금액이 높다고 해서 모든 업무에서의 성능치가 절대적으로 높은 것은 아니며 하기의 자료에서와 같이 FP16의 성능은 L40S와 비슷 하며, 특히 FP32에서의 성능은 L40S 가 월등하게 높습니다.(19.5 TFLOPS VS 91.6 TFLOPS)

 

NVIDIA A100(좌) 과 L40S(우) 스펙 비교자료

 

 

 

A100과 L40S의 성능 비교 자료

 

- AI Training Generative AI를 비교를 하였을때 L40S 모델이 조금 더 좋은 성능수치를 내고 있습니다. (A100 80GPU vs 2 System with 4x L40s)

 

- Generative AI → 비정형 딥 러닝 모델을 사용하여 사용자 입력을 기반으로 콘텐츠를 생성하는 인공지능의 일종

 

 

 

NVIDIA L40S 적용에 적합한 업무

 

NVIDIA L40S GPU는 하기의 작업에 사용 시  A100 대비 더욱 낮은 비용으로 더욱 효율적인 성능을 불 수 있습니다.

 

* 적용시 비용 대비 효율적인 성능 기대가 가능한 업무

제너레이티브 AI, LLM 추론, 일반 AI 교육 및 추론, 렌더링 및 3D 그래픽, 엔비디아 옴니버스, 스트리밍 및 비디오 콘텐츠, 가상 워크스테이션

 

 

 

FP16,FP32,FP64,TF32란 무엇인가?

 

추가적으로, 

FP16 과 FP32 , FP64, TF32 등에 간단하게 설명 드리자면...


FP32: 일반적으로 모델 학습에 사용되는 부동 소수점 형식입니다. FP16과 비교하여 정밀도가 높으며, 모델의 정확도를 높일 수 있습니다. 그러나 연산 속도가 느리고 메모리 사용량이 크기 때문에 대규모 모델 학습에는 제한적입니다.

 

FP16: 딥 러닝 추론(inference) 분야에서 많이 사용되며, FP32 대비 연산 속도가 빠르고 메모리 사용량이 적습니다.

            그러나 정밀도가 낮아서 모델의 정확도가 떨어질 수 있으며, 따라서 학습에는 적합하지 않습니다.

 

TF32: AI와 특정 HPC 애플리케이션에서 핵심적으로 사용되는 텐서연산

 

FP64 : 개당 64 비트를 사용해 현재 GPU가 지원하는 많은 연산 방식 중 가장 계산 집약적인 방식입니다.

 

 

속도적인 면에서 순서를 메긴다면 : FP64 > TF32 > FP32 > FP16 순으로 나열 할 수 있습니다.

 

* 참고 자료 : [ML] BF16,FP16,FP32의 차이점 관련 게시물 링크 자료 <- 클릭

 

 

 

포스팅을 마무리 하며...

 

포스팅 서두에 말씀 드렸지만, A100의 수급 이슈로 인하여 재고 수급의 어려움과 높은 단가 상승으로 인하여 큰 어려움이 있었는데요..

 

그에 대한 대안으로 L40S 라는 모델을 제안 드리고자 본 포스팅을 작성하게 되었습니다.

 

무조건적으로 가격이 높아서 좋은 제품으로 보고 모델을 선택 하기 보다는 사용하고자 하는 용도와 금액대비 성능적인 부분도 꼼꼼하게 따져보고 제품을 도입 하실수 있으면 좋겠습니다.

 

구형인 Ampere 아키텍쳐를 사용하는 A100보다 신형 아키텍쳐인 NVIDIA의 Lovelace를 사용하는 L40S에 대해 최근들어 시장에서 많은 관심이 높아지고 있는 상황 입니다.

 

저희 다인엔시스에서 해당 제품에 대한 물품 공급 및 견적지원이 가능 하오니 본 제품에 관한 문의가 있으시면 언제든지 저희 다인엔시스에 문의해 주시면 감사 하겠습니다.

 

 

* 제품 및 구매 견적 문의

영업부: 02-719-2012 / sales@dainnsys.com

 

감사 합니다.

 

 

 

 

DAINNSYS/다인엔시스/다인엔시스기술지원/스위치/스위치 기술지원비(비용)/스위치 설치비/방화벽/방화벽 기술지원비(비용)/방화벽 설치비/랙/랙(RACK) 기술지원비(비용)/랙(RACK) 설치비/KVM/KVM 기술지원비(비용)/KVM 설치비/스토리지/스토리지 기술지원비(비용)/스토리지 설치비/스토리지 랙마운트비용/스토리지 장애조치비용/서버/서버 기술지원비(비용)/서버 설치비/서버 랙마운트비용/서버 장애조치비용/윈도우서버/윈도우즈 기술지원비(비용)/윈도우즈 설치비/리욱스/Linux/리눅스 기술지원비(비용)/리눅스 설치비/DB/데이터베이스/MySQL 기술지원비(비용)/MySQL 설치비/MSSQL 기술지원비(비용)/MSSQL 설치비/백업 기술지원비(비용)/HPE서버비용/HPE/DL20/DL20GEN10/ML30/ML30GEN10/ML360/ML350GEN10/DL360/DL360Gen10/DL380/DL380Gen10/LENOVO서버/레노보서버/델서버/델서버비용/DELLR540/DELLR750/HP서버/서버엔지니어/서버기술지원/서버디스크장애처리/방화벽/방화벽엔지니어/APC UPS/UPS/UPS설치/UPS기술지원/UPS납품/서버렉마운트/HPE Service Pack for Proliant/HPE SPP/SPP/Intelligent Provisioning/시놀로지나스/나스기술지원/SYNOLOGY/SYNOLOGY나스/시놀로지DS918/시놀로지하이퍼백업/HYPER BACKUP/시놀로지HyperBackup/시놀로지나스백업/서버백업/서버트러블슈팅/리눅스트러블슈팅/보안솔루션/시큐어디스크/인터넷디스크/이스트소프트/알약/카스퍼스키/ESTSOFT/V3/안랩/소포스/SOPHOS/카보나이트/더블테이크/이중화솔루션/HA솔루션/Windows서버설치/왼도우서버설치/윈도우서버2019/윈도우서버2016/MSSQL/MYSQL/디포그랙/DEFOG랙/디포그랙가격/EDFOG랙가격/RMS랙/서버납품/랙납품설치/랙설치/나스설치지원/스토리지납품설치/윈도우서버트러블슈팅/리눅스서버트러블슈팅/HPE서버펌웨어/HP서버펌웨어/HPE서버/FIRMWARE/DELL서버펌웨어/델서버펌웨어업데이트/레노보서버펌웨어/LENOVO펌웨어업데이트/HPE서버드라이버설치/HPE서버구매/DELL서버구매/LENOVO서버구매/보안솔루션구매/이중화솔루션구매/보안솔루션설치/이중화솔루션설치/HPE서버가격비교/DELL서버가격비교/LENOVO서버가격비교/HPE서버가격비교견적/DELL서버가격비교견적/LENOVO서버가격비교견적/HPE서버견적/DELL서버견적/LENOVO서버견적/HPE서버디스크교체/DELL서버디스크교체/LENOVO서버디스크교체/HPE서버RAID컨트롤러/HPE서버RAID컨트롤러/DELL서버RAID컨트롤러/LENOVO서버RAID컨트롤러/HP서버하드디스크/HPE서버하드디스크구매/DELL서버하드디스크구매/LENOVO서버하드디스크구매/HPE서버SAS하드디스크/DELL서버SAS하드디스크/LENONO서버SAS하드디스크/HPE서버메모리/DELL서버메모리/LENOVO서버메모리/HP서버메모리/HPE서버CPU/DELL서버CPU/LENOVO서버CPU/서버CPU/서버메모리/서버MEMORY/ECC메모리/서버용메모리/서버용하드디스크/서버용그래픽카드/쿼드로P400/QUADRO그래픽카드/QUADRO/우분투설치/서버보안/네트워크장비/네트워크스위치/L2스위치/L3스위치/OS설치/서버OS설치/리눅스서버설치/우분투설치/페도라설치/레드헷설치/RHEL설치/워크스테이션/서버/hp워크스테이션/서버컴퓨터/델워크스테이션/hp서버/미니서버랙/중고서버/hpz4/dell워크스테이션/서버pc/hpz4g4/중고워크스테이션/hpz440/레노버p620/서버용컴퓨터/델서버/레노버워크스테이션/hpz420/dell서버/인스퍼/INSPURE/인스퍼서버/R760/R750//R250/R350/R750xs/GPU서버/AI서버/HPPC구매/델서버견적/델워크스테이션견적/A100/A6000/A5000/A4000/A2000/T400/다인월드/DAINWORLD/델서버쇼핑몰

댓글