Nvidia Volta

در اینجا به بررسی جزئیات دقیق پردازنده‌های گرافیکی GPU NVIDIA Tesla V یا همان سری Volta می‌پردازیم. GPUهای “Volta” معماری نسل قبلی یعنی “Pascal” را بهبود می‌بخشند. فروش GPUهای Volta از ماه سپتامبر 2017 شروع شد و در مارس 2018 به حافظه 32 گیگابایتی ارتقا یافتند.

ویژگی‌های مهم موجود در معماری GPUهای سری Volta عبارتند از:

عملکرد HPC فوق‌العاده با عملکرد 7.8 ترافلاپس در حالت دقت مضاعف و 15.7 ترافلاپس برای دقت ساده در محاسبات ممیز شناور.

عملکرد قوی در آموزش یادگیری عمیق (Deep Learning) با حداکثر 125 ترافلاپس در عملیات ممیز شناور با دقت نیمه  FP16

عملکرد فوق‌العاده در استنتاج یادگیری عمیق با توان 62.8 هزار میلیارد عملیات اعداد صحیح در ثانیه 62.8 TeraOPS

اجرای همزمان دستورات FP32 و INT32 که عملکرد کلی پردازنده گرافیکی را بهبود می‌بخشد

NVLink باعث افزایش 8 تا 10 برابری پهنای باند بین GPU های Tesla و بین GPUها و CPUهای سیستم می‌شود (در مقایسه با PCI-E).

حافظه HBM2 با پهنای باند بالا بهبود عملکرد حافظه تا سه برابر در مقایسه با GPUهای نسل قبل

حافظه یکپارچه پیشرفته اجازه می دهد تا برنامه‌های کاربردی GPU به طور مستقیم به حافظه تمام GPUها و همچنین تمام حافظه سیستم (تا 512 ترابایت) دسترسی پیدا کنند.

حافظه ECC محلی بدون هیچ گونه سرباری، خطاهای حافظه را شناسایی و اصلاح می‌کند.

ترکیب Cache L1 و حافظه اشتراکی، انعطاف پذیری بیشتر و عملکرد بالاتر از Pascal را فراهم می کند.

گروه همکاری: یک مدل برنامه نویسی جدید معرفی شده در نسخه 9 کودا که برای سازماندهی گروهی از نخهای مرتبط (communicating threads) ارائه شده است

 

مشخصات پردازنده‌های گرافیکی تسلا سری Volta

جدول زیر ویژگی‌های Tesla Volta GPU  موجود را خلاصه می‌کند. برای کسب اطلاعات بیشتر یا خرید این محصولات، و یا برای استفاده بهتر از توانمندی‌های این GPUها با شرکت هوشمند آرنا سورین تماس بگیرید.

 

Tesla V100 PCI-E 16GB/32GBTesla V100 SXM2 16GB/32GBFeature
Volta GV100GPU Chip(s)
56.0 TOPS62.8 TOPSInteger Operations (INT8)
112 TFLOPS125 TFLOPSHalf Precision (FP16)
14.0 TFLOPS15.7 TFLOPSSingle Precision (FP32)*
7.0 TFLOPS7.8 TFLOPSDouble Precision (FP64)*
16GB or 32GBOn-die HBM2 Memory
900 GB/sMemory Bandwidth
6 MBL2 Cache
PCI-Express 3.0NVLink 2.0 + PCI-E 3.0Interconnect
16 GB/s150 GB/sTheoretical transfer bandwidth
~12 GB/sTBMAchievable transfer bandwidth
80# of SM Units
640# of Tensor Cores
5120# of integer INT32 CUDA Cores
5120# of single-precision FP32 CUDA Cores
2560# of double-precision FP64 CUDA Cores
not publishedGPU Base Clock
Yes – DynamicGPU Boost Support
~1367 MHz1530 MHzGPU Boost Clock
7.0Compute Capability
Workstation Support
yesServer Support
250W300WWattage (TDP)

 

مقایسه معماری GPUهای Kepler، Pascal و Volta

 

Volta GV100Pascal GP100Kepler GK210Feature
7.06.03.7Compute Capability
32Threads per Warp
64Max Warps per SM
2048Max Threads per SM
3216Max Thread Blocks per SM
12832Max Concurrent Kernels
64 K128 K32-bit Registers per SM
64 KMax Registers per Thread Block
255Max Registers per Thread
1024Max Threads per Thread Block
32KB ~ 128KB
(dynamic with shared memory)
24KB dedicated L1 cachesplit with shared memoryL1 Cache Configuration

configurable up to 96KB; remainder for L1 Cache

(128KB total)

 

64KB

16KB + 112KB L1 Cache

32KB + 96KB L1 Cache

48KB + 80KB L1 Cache

(128KB total)

 

Shared Memory Configurations
96KB48KBMax Shared Memory per Thread Block
232-1Max X Grid Dimension
YesHyper-Q
YesDynamic Parallelism
YesNoUnified Memory
YesNoPre-Emption

 

رمزگذاری و رمزگشایی سخت‌افزاری ویدیو

تمام پردازنده‌های NVIDIA Volta شامل یک یا چند واحد سخت‌افزاری برای رمزگذاری و رمزگشایی ویدیو (NVENC / NVDEC) می‌باشند. برای جزئیات کامل سخت‌افزاری، به ماتریس پشتیبانی از رمزگذار / رمزگشای مرجع NVIDIA مراجعه کنید.