مقایسه دقیق پردازندههای گرافیکی انویدیا تسلا سری Pascal
در اینجا به بررسی جزئیات دقیق پردازندههای گرافیکی GPU NVIDIA Tesla P یا همان سری Pascal میپردازیم. GPUهای “Pascal” معماری نسلهای قبلی یعنی “Kepler” و “Maxwell” را بهبود میبخشند. فروش GPUهای Volta از ماه سپتامبر 2016 شروع شد.
ویژگیهای مهم موجود در معماری GPUهای سری Pascal عبارتند از:
عملکرد HPC فوقالعاده با عملکرد 5.3 ترافلاپس در حالت دقت مضاعف و 10.6 ترافلاپس برای دقت ساده در محاسبات ممیز شناور.
NVLink باعث افزایش 5 برابری پهنای باند بین GPU های Tesla و بین GPUها و CPUهای سیستم میشود (در مقایسه با PCI-E).
حافظه HBM2 با پهنای باند بالا بهبود عملکرد حافظه تا سه برابر در مقایسه با GPUهای نسل قبل
حافظه یکپارچه پیشرفته اجازه می دهد تا برنامههای کاربردی GPU به طور مستقیم به حافظه تمام GPUها و همچنین تمام حافظه سیستم (تا 512 ترابایت) دسترسی پیدا کنند.
تا 4 مگابایت حافظه L2 در GPU Pascal (در مقایسه با 1.5 مگابایت در Kepler و 3 مگابایت در Maxwell)
حافظه ECC محلی بدون هیچ گونه سرباری، خطاهای حافظه را شناسایی و اصلاح میکند.
بهرهوری انرژی: توان اسمی GPUهای پاسکال به ازای هر وات توان مصرفی، تقریبا دو برابر پردازندههای گرافیکی Kepler است.
واحدهای SM کارآمد: معماری پاسکال تعداد رجیسترهای هر نخ (Thread) را دو برابر میکند.
اتمیک بهبود یافته در پاسکال امکان دستور جمع اتمیک در حافظه عمومی فراهم شده است (در GPUهای قبلی تنها امکان اجرای اتمیک در حافظه مشترک پشتیبانی میشد). همچنین اتمیک میتواند در داخل حافظه دیگر GPUهای سیستم انجام شود.
پشتیبانی از ممیز شناور با دقت نیمه کارایی را برای عملیات با دقت کم افزایش میدهد (بیشتر در آموزش شبکه عصبی کاربرد دارد)
پشتیبانی از INT8 باعث بهبود کارایی برای عملیات اعداد صحیح با دقت کم میشود (اغلب در استنتاج شبکه عصبی استفاده میشود)
اولویت محاسباتی (Compute Preemption) اجازه می دهد تا فعالیتهای با اولویت بالا فعالیتهای در حال اجرا را متوقف سازند.
مشخصات پردازندههای گرافیکی تسلا سری Pascal
جدول زیر ویژگیهای Tesla Pascal GPU موجود را خلاصه میکند. برای کسب اطلاعات بیشتر یا خرید این محصولات، و یا برای استفاده بهتر از توانمندیهای این GPUها با شرکت هوشمند آرنا سورین تماس بگیرید.
برای کاربردهای HPC:
Feature | ||||
Pascal GP100 | GPU Chip(s) | |||
– | Integer Operations (INT8) | |||
18.7 TFLOPS | 21.2 TFLOPS | Half Precision (FP16) | ||
9.3 TFLOPS | 10.6 TFLOPS | Single Precision (FP32)* | ||
4.7 TFLOPS | 5.3 TFLOPS | Double Precision (FP64)* | ||
12GB | 16GB | On-die HBM2 Memory | ||
549 GB/s | 732 GB/s | Memory Bandwidth | ||
4 MB | L2 Cache | |||
PCI-Express 3.0 | NVLink + PCI-E 3.0 | Interconnect | ||
16 GB/s | 80 GB/s | Theoretical transfer bandwidth | ||
~12 GB/s | ~66 GB/s | Achievable transfer bandwidth | ||
56 | # of SM Units | |||
3584 | # of single-precision FP32 CUDA Cores | |||
1792 | # of double-precision FP64 CUDA Cores | |||
1126 MHz | 1328 MHz | GPU Base Clock | ||
Yes – Dynamic | GPU Boost Support | |||
1303 MHz | 1480 MHz | GPU Boost Clock | ||
6.0 | Compute Capability | |||
– | Workstation Support | |||
yes | Server Support | |||
250W | 300W | Wattage (TDP) |
برای کاربردهای Deep Learning:
Tesla P40 PCI-E 24GB | Feature |
Pascal GP102 | GPU Chip(s) |
47 TOPS | Integer Operations (INT8) |
– | Half Precision (FP16) |
12 TFLOPS | Single Precision (FP32)* |
– | Double Precision (FP64)* |
24GB | On-die GDDR5 Memory |
346 GB/s | Memory Bandwidth |
3 MB | L2 Cache |
PCI-Express 3.0 | Interconnect |
16 GB/s | Theoretical transfer bandwidth |
~12 GB/s | Achievable transfer bandwidth |
30 | # of SM Units |
3840 | # of single-precision FP32 CUDA Cores |
1303 MHz | GPU Base Clock |
Yes – Dynamic | GPU Boost Support |
1531 MHz | GPU Boost Clock |
6.1 | Compute Capability |
– | Workstation Support |
yes | Server Support |
250W | Wattage (TDP) |
مقایسه معماری GPUهای Kepler، Maxwell و Pascal
Pascal GP102 | Pascal GP100 | Maxwell GM204 | Maxwell GM200 | Kepler GK210 | Feature | |
6.1 | 6.0 | 5.2 | 3.7 | Compute Capability | ||
32 | Threads per Warp | |||||
64 | Max Warps per SM | |||||
2048 | Max Threads per SM | |||||
32 | 16 | Max Thread Blocks per SM | ||||
32 | 128 | 32 | Max Concurrent Kernels | |||
64 K | 128 K | 32-bit Registers per SM | ||||
64 K | Max Registers per Thread Block | |||||
255 | Max Registers per Thread | |||||
1024 | Max Threads per Thread Block | |||||
24KB dedicated L1 cache | split with shared memory | L1 Cache Configuration | ||||
96KB dedicated | 64KB dedicated | 96KB dedicated | 16KB + 112KB L1 Cache 32KB + 96KB L1 Cache 48KB + 80KB L1 Cache (128KB total) | Shared Memory Configurations | ||
48KB | Max Shared Memory per Thread Block | |||||
232-1 | Max X Grid Dimension | |||||
Yes | Hyper-Q | |||||
Yes | Dynamic Parallelism |
سایر محصولات تسلا سری Pascal
NVIDIA همچنین پردازندههای گرافیکی Tesla P4 را عرضه کرده است. این GPUها عمدتا برای استفادههای embedded پیشبینی شدهاند و انتظار نمیرود برای کاربردهای HPC مورد استفاده قرار گیرند.
رمزگذاری و رمزگشایی سختافزاری ویدیو
تمام پردازندههای NVIDIA Pascal شامل یک یا چند واحد سختافزاری برای رمزگذاری و رمزگشایی ویدیو (NVENC / NVDEC) میباشند. برای جزئیات کامل سختافزاری، به ماتریس پشتیبانی از رمزگذار / رمزگشای مرجع NVIDIA مراجعه کنید.