مقایسه دقیق پردازندههای گرافیکی انویدیا تسلا سری Volta
در اینجا به بررسی جزئیات دقیق پردازندههای گرافیکی GPU NVIDIA Tesla V یا همان سری Volta میپردازیم. GPUهای “Volta” معماری نسل قبلی یعنی “Pascal” را بهبود میبخشند. فروش GPUهای Volta از ماه سپتامبر 2017 شروع شد و در مارس 2018 به حافظه 32 گیگابایتی ارتقا یافتند.
ویژگیهای مهم موجود در معماری GPUهای سری Volta عبارتند از:
عملکرد HPC فوقالعاده با عملکرد 7.8 ترافلاپس در حالت دقت مضاعف و 15.7 ترافلاپس برای دقت ساده در محاسبات ممیز شناور.
عملکرد قوی در آموزش یادگیری عمیق (Deep Learning) با حداکثر 125 ترافلاپس در عملیات ممیز شناور با دقت نیمه FP16
عملکرد فوقالعاده در استنتاج یادگیری عمیق با توان 62.8 هزار میلیارد عملیات اعداد صحیح در ثانیه 62.8 TeraOPS
اجرای همزمان دستورات FP32 و INT32 که عملکرد کلی پردازنده گرافیکی را بهبود میبخشد
NVLink باعث افزایش 8 تا 10 برابری پهنای باند بین GPU های Tesla و بین GPUها و CPUهای سیستم میشود (در مقایسه با PCI-E).
حافظه HBM2 با پهنای باند بالا بهبود عملکرد حافظه تا سه برابر در مقایسه با GPUهای نسل قبل
حافظه یکپارچه پیشرفته اجازه می دهد تا برنامههای کاربردی GPU به طور مستقیم به حافظه تمام GPUها و همچنین تمام حافظه سیستم (تا 512 ترابایت) دسترسی پیدا کنند.
حافظه ECC محلی بدون هیچ گونه سرباری، خطاهای حافظه را شناسایی و اصلاح میکند.
ترکیب Cache L1 و حافظه اشتراکی، انعطاف پذیری بیشتر و عملکرد بالاتر از Pascal را فراهم می کند.
گروه همکاری: یک مدل برنامه نویسی جدید معرفی شده در نسخه 9 کودا که برای سازماندهی گروهی از نخهای مرتبط (communicating threads) ارائه شده است
مشخصات پردازندههای گرافیکی تسلا سری Volta
جدول زیر ویژگیهای Tesla Volta GPU موجود را خلاصه میکند. برای کسب اطلاعات بیشتر یا خرید این محصولات، و یا برای استفاده بهتر از توانمندیهای این GPUها با شرکت هوشمند آرنا سورین تماس بگیرید.
Tesla V100 PCI-E 16GB/32GB | Tesla V100 SXM2 16GB/32GB | Feature |
Volta GV100 | GPU Chip(s) | |
56.0 TOPS | 62.8 TOPS | Integer Operations (INT8) |
112 TFLOPS | 125 TFLOPS | Half Precision (FP16) |
14.0 TFLOPS | 15.7 TFLOPS | Single Precision (FP32)* |
7.0 TFLOPS | 7.8 TFLOPS | Double Precision (FP64)* |
16GB or 32GB | On-die HBM2 Memory | |
900 GB/s | Memory Bandwidth | |
6 MB | L2 Cache | |
PCI-Express 3.0 | NVLink 2.0 + PCI-E 3.0 | Interconnect |
16 GB/s | 150 GB/s | Theoretical transfer bandwidth |
~12 GB/s | TBM | Achievable transfer bandwidth |
80 | # of SM Units | |
640 | # of Tensor Cores | |
5120 | # of integer INT32 CUDA Cores | |
5120 | # of single-precision FP32 CUDA Cores | |
2560 | # of double-precision FP64 CUDA Cores | |
not published | GPU Base Clock | |
Yes – Dynamic | GPU Boost Support | |
~1367 MHz | 1530 MHz | GPU Boost Clock |
7.0 | Compute Capability | |
– | Workstation Support | |
yes | Server Support | |
250W | 300W | Wattage (TDP) |
مقایسه معماری GPUهای Kepler، Pascal و Volta
Volta GV100 | Pascal GP100 | Kepler GK210 | Feature |
7.0 | 6.0 | 3.7 | Compute Capability |
32 | Threads per Warp | ||
64 | Max Warps per SM | ||
2048 | Max Threads per SM | ||
32 | 16 | Max Thread Blocks per SM | |
128 | 32 | Max Concurrent Kernels | |
64 K | 128 K | 32-bit Registers per SM | |
64 K | Max Registers per Thread Block | ||
255 | Max Registers per Thread | ||
1024 | Max Threads per Thread Block | ||
32KB ~ 128KB (dynamic with shared memory) | 24KB dedicated L1 cache | split with shared memory | L1 Cache Configuration |
configurable up to 96KB; remainder for L1 Cache (128KB total)
| 64KB | 16KB + 112KB L1 Cache 32KB + 96KB L1 Cache 48KB + 80KB L1 Cache (128KB total)
| Shared Memory Configurations |
96KB | 48KB | Max Shared Memory per Thread Block | |
232-1 | Max X Grid Dimension | ||
Yes | Hyper-Q | ||
Yes | Dynamic Parallelism | ||
Yes | No | Unified Memory | |
Yes | No | Pre-Emption |
رمزگذاری و رمزگشایی سختافزاری ویدیو
تمام پردازندههای NVIDIA Volta شامل یک یا چند واحد سختافزاری برای رمزگذاری و رمزگشایی ویدیو (NVENC / NVDEC) میباشند. برای جزئیات کامل سختافزاری، به ماتریس پشتیبانی از رمزگذار / رمزگشای مرجع NVIDIA مراجعه کنید.