Nvidia Pascal

در اینجا به بررسی جزئیات دقیق پردازنده‌های گرافیکی GPU NVIDIA Tesla P یا همان سری Pascal می‌پردازیم. GPUهای “Pascal” معماری نسلهای قبلی یعنی “Kepler” و “Maxwell” را بهبود می‌بخشند. فروش GPUهای Volta از ماه سپتامبر 2016 شروع شد.

ویژگی‌های مهم موجود در معماری GPUهای سری Pascal عبارتند از:

عملکرد HPC فوق‌العاده با عملکرد 5.3 ترافلاپس در حالت دقت مضاعف و 10.6 ترافلاپس برای دقت ساده در محاسبات ممیز شناور.

NVLink باعث افزایش 5 برابری پهنای باند بین GPU های Tesla و بین GPUها و CPUهای سیستم می‌شود (در مقایسه با PCI-E).

حافظه HBM2 با پهنای باند بالا بهبود عملکرد حافظه تا سه برابر در مقایسه با GPUهای نسل قبل

حافظه یکپارچه پیشرفته اجازه می دهد تا برنامه‌های کاربردی GPU به طور مستقیم به حافظه تمام GPUها و همچنین تمام حافظه سیستم (تا 512 ترابایت) دسترسی پیدا کنند.

تا 4 مگابایت حافظه L2 در GPU Pascal (در مقایسه با 1.5 مگابایت در Kepler و  3 مگابایت در Maxwell)

حافظه ECC محلی بدون هیچ گونه سرباری، خطاهای حافظه را شناسایی و اصلاح می‌کند.

بهره‌وری انرژی: توان اسمی GPUهای پاسکال به ازای هر وات توان مصرفی، تقریبا دو برابر پردازنده‌های گرافیکی Kepler است.

واحدهای SM کارآمد: معماری پاسکال تعداد رجیسترهای هر نخ (Thread) را دو برابر می‌کند.

اتمیک بهبود یافته در پاسکال امکان دستور جمع اتمیک در حافظه عمومی فراهم شده است (در GPUهای قبلی تنها امکان اجرای اتمیک در حافظه مشترک پشتیبانی می‌شد). همچنین اتمیک می‌تواند در داخل حافظه دیگر GPUهای سیستم انجام شود.

پشتیبانی از ممیز شناور با دقت نیمه کارایی را برای عملیات با دقت کم افزایش می‌دهد (بیشتر در آموزش شبکه عصبی کاربرد دارد)

پشتیبانی از INT8 باعث بهبود کارایی برای عملیات اعداد صحیح با دقت کم می‌شود (اغلب در استنتاج شبکه عصبی استفاده می‌شود)

اولویت محاسباتی (Compute Preemption) اجازه می دهد تا فعالیتهای با اولویت بالا فعالیتهای در حال اجرا را متوقف سازند.

 

مشخصات پردازنده‌های گرافیکی تسلا سری Pascal

جدول زیر ویژگی‌های Tesla Pascal GPU موجود را خلاصه می‌کند. برای کسب اطلاعات بیشتر یا خرید این محصولات، و یا برای استفاده بهتر از توانمندی‌های این GPUها با شرکت هوشمند آرنا سورین تماس بگیرید.

برای کاربردهای HPC:

Tesla P100 PCI-E 12GB

Tesla P100 PCI-E 16GB

Tesla P100 SXM2 16GB

Feature

Pascal GP100

GPU Chip(s)

Integer Operations (INT8)

18.7 TFLOPS

21.2 TFLOPS

Half Precision (FP16)

9.3 TFLOPS

10.6 TFLOPS

Single Precision (FP32)*

4.7 TFLOPS

5.3 TFLOPS

Double Precision (FP64)*

12GB

16GB

On-die HBM2 Memory

549 GB/s

732 GB/s

Memory Bandwidth

4 MB

L2 Cache

PCI-Express 3.0

NVLink + PCI-E 3.0

Interconnect

16 GB/s

80 GB/s

Theoretical transfer bandwidth

~12 GB/s

~66 GB/s

Achievable transfer bandwidth

56

# of SM Units

3584

# of single-precision FP32 CUDA Cores

1792

# of double-precision FP64 CUDA Cores

1126 MHz

1328 MHz

GPU Base Clock

Yes – Dynamic

GPU Boost Support

1303 MHz

1480 MHz

GPU Boost Clock

6.0

Compute Capability

Workstation Support

yes

Server Support

250W

300W

Wattage (TDP)

 

برای کاربردهای Deep Learning:

Tesla P40 PCI-E 24GB

Feature

Pascal GP102

GPU Chip(s)

47 TOPS

Integer Operations (INT8)

Half Precision (FP16)

12 TFLOPS

Single Precision (FP32)*

Double Precision (FP64)*

24GB

On-die GDDR5 Memory

346 GB/s

Memory Bandwidth

3 MB

L2 Cache

PCI-Express 3.0

Interconnect

16 GB/s

Theoretical transfer bandwidth

~12 GB/s

Achievable transfer bandwidth

30

# of SM Units

3840

# of single-precision FP32 CUDA Cores

1303 MHz

GPU Base Clock

Yes – Dynamic

GPU Boost Support

1531 MHz

GPU Boost Clock

6.1

Compute Capability

Workstation Support

yes

Server Support

250W

Wattage (TDP)

 

مقایسه معماری GPUهای Kepler، Maxwell و Pascal

 

 

Pascal GP102

Pascal GP100Maxwell GM204Maxwell GM200Kepler GK210

Feature

6.1

6.05.23.7

Compute Capability

32

Threads per Warp

64

Max Warps per SM

2048

Max Threads per SM

3216

Max Thread Blocks per SM

32128

32

Max Concurrent Kernels

64 K

128 K

32-bit Registers per SM

64 K

Max Registers per Thread Block

255

Max Registers per Thread

1024

Max Threads per Thread Block

24KB dedicated L1 cache

split with shared memory

L1 Cache Configuration

96KB dedicated64KB dedicated96KB dedicated

16KB + 112KB L1 Cache

32KB + 96KB L1 Cache

48KB + 80KB L1 Cache

(128KB total)

Shared Memory Configurations

48KB

Max Shared Memory per Thread Block

232-1

Max X Grid Dimension

Yes

Hyper-Q

Yes

Dynamic Parallelism

 

سایر محصولات تسلا سری Pascal

NVIDIA همچنین پردازنده‌های گرافیکی Tesla P4  را عرضه کرده است. این GPUها عمدتا برای استفاده‌های embedded پیش‌بینی شده‌اند و انتظار نمی‌رود برای کاربردهای HPC مورد استفاده قرار گیرند.

رمزگذاری و رمزگشایی سخت‌افزاری ویدیو

تمام پردازنده‌های NVIDIA Pascal شامل یک یا چند واحد سخت‌افزاری برای رمزگذاری و رمزگشایی ویدیو (NVENC / NVDEC) می‌باشند. برای جزئیات کامل سخت‌افزاری، به ماتریس پشتیبانی از رمزگذار / رمزگشای مرجع NVIDIA مراجعه کنید.