مقایسه دقیق پردازنده‌های گرافیکی انویدیا تسلا سری Pascal

در اینجا به بررسی جزئیات دقیق پردازنده‌های گرافیکی GPU NVIDIA Tesla P یا همان سری Pascal می‌پردازیم. GPUهای “Pascal” معماری نسلهای قبلی یعنی “Kepler” و “Maxwell” را بهبود می‌بخشند. فروش GPUهای Volta از ماه سپتامبر 2016 شروع شد.

ویژگی‌های مهم موجود در معماری GPUهای سری Pascal عبارتند از:

عملکرد HPC فوق‌العاده با عملکرد 5.3 ترافلاپس در حالت دقت مضاعف و 10.6 ترافلاپس برای دقت ساده در محاسبات ممیز شناور.

NVLink باعث افزایش 5 برابری پهنای باند بین GPU های Tesla و بین GPUها و CPUهای سیستم می‌شود (در مقایسه با PCI-E).

حافظه HBM2 با پهنای باند بالا بهبود عملکرد حافظه تا سه برابر در مقایسه با GPUهای نسل قبل

حافظه یکپارچه پیشرفته اجازه می دهد تا برنامه‌های کاربردی GPU به طور مستقیم به حافظه تمام GPUها و همچنین تمام حافظه سیستم (تا 512 ترابایت) دسترسی پیدا کنند.

تا 4 مگابایت حافظه L2 در GPU Pascal (در مقایسه با 1.5 مگابایت در Kepler و 3 مگابایت در Maxwell)

حافظه ECC محلی بدون هیچ گونه سرباری، خطاهای حافظه را شناسایی و اصلاح می‌کند.

بهره‌وری انرژی: توان اسمی GPUهای پاسکال به ازای هر وات توان مصرفی، تقریبا دو برابر پردازنده‌های گرافیکی Kepler است.

واحدهای SM کارآمد: معماری پاسکال تعداد رجیسترهای هر نخ (Thread) را دو برابر می‌کند.

اتمیک بهبود یافته در پاسکال امکان دستور جمع اتمیک در حافظه عمومی فراهم شده است (در GPUهای قبلی تنها امکان اجرای اتمیک در حافظه مشترک پشتیبانی می‌شد). همچنین اتمیک می‌تواند در داخل حافظه دیگر GPUهای سیستم انجام شود.

پشتیبانی از ممیز شناور با دقت نیمه کارایی را برای عملیات با دقت کم افزایش می‌دهد (بیشتر در آموزش شبکه عصبی کاربرد دارد)

پشتیبانی از INT8 باعث بهبود کارایی برای عملیات اعداد صحیح با دقت کم می‌شود (اغلب در استنتاج شبکه عصبی استفاده می‌شود)

اولویت محاسباتی (Compute Preemption) اجازه می دهد تا فعالیتهای با اولویت بالا فعالیتهای در حال اجرا را متوقف سازند.

مشخصات پردازنده‌های گرافیکی تسلا سری Pascal

جدول زیر ویژگی‌های Tesla Pascal GPU موجود را خلاصه می‌کند. برای کسب اطلاعات بیشتر یا خرید این محصولات، و یا برای استفاده بهتر از توانمندی‌های این GPUها با شرکت هوشمند آرنا سورین تماس بگیرید.

برای کاربردهای HPC:

Tesla P100 PCI-E 12GB	Tesla P100 PCI-E 16GB	Tesla P100 SXM2 16GB		Feature
Pascal GP100				GPU Chip(s)
–				Integer Operations (INT8)
18.7 TFLOPS		21.2 TFLOPS		Half Precision (FP16)
9.3 TFLOPS		10.6 TFLOPS		Single Precision (FP32)*
4.7 TFLOPS		5.3 TFLOPS		Double Precision (FP64)*
12GB	16GB			On-die HBM2 Memory
549 GB/s	732 GB/s			Memory Bandwidth
4 MB				L2 Cache
PCI-Express 3.0		NVLink + PCI-E 3.0		Interconnect
16 GB/s		80 GB/s		Theoretical transfer bandwidth
~12 GB/s		~66 GB/s		Achievable transfer bandwidth
56				# of SM Units
3584				# of single-precision FP32 CUDA Cores
1792				# of double-precision FP64 CUDA Cores
1126 MHz			1328 MHz	GPU Base Clock
Yes – Dynamic				GPU Boost Support
1303 MHz		1480 MHz		GPU Boost Clock
6.0				Compute Capability
–				Workstation Support
yes				Server Support
250W		300W		Wattage (TDP)

برای کاربردهای Deep Learning:

Tesla P40 PCI-E 24GB	Feature
Pascal GP102	GPU Chip(s)
47 TOPS	Integer Operations (INT8)
–	Half Precision (FP16)
12 TFLOPS	Single Precision (FP32)*
–	Double Precision (FP64)*
24GB	On-die GDDR5 Memory
346 GB/s	Memory Bandwidth
3 MB	L2 Cache
PCI-Express 3.0	Interconnect
16 GB/s	Theoretical transfer bandwidth
~12 GB/s	Achievable transfer bandwidth
30	# of SM Units
3840	# of single-precision FP32 CUDA Cores
1303 MHz	GPU Base Clock
Yes – Dynamic	GPU Boost Support
1531 MHz	GPU Boost Clock
6.1	Compute Capability
–	Workstation Support
yes	Server Support
250W	Wattage (TDP)

مقایسه معماری GPUهای Kepler، Maxwell و Pascal

Pascal GP102		Pascal GP100	Maxwell GM204	Maxwell GM200	Kepler GK210	Feature
6.1		6.0	5.2		3.7	Compute Capability
32						Threads per Warp
64						Max Warps per SM
2048						Max Threads per SM
32					16	Max Thread Blocks per SM
32	128		32			Max Concurrent Kernels
64 K					128 K	32-bit Registers per SM
64 K						Max Registers per Thread Block
255						Max Registers per Thread
1024						Max Threads per Thread Block
24KB dedicated L1 cache			split with shared memory			L1 Cache Configuration
96KB dedicated		64KB dedicated	96KB dedicated		16KB + 112KB L1 Cache 32KB + 96KB L1 Cache 48KB + 80KB L1 Cache (128KB total)	Shared Memory Configurations
48KB						Max Shared Memory per Thread Block
2^32-1						Max X Grid Dimension
Yes						Hyper-Q
Yes						Dynamic Parallelism

سایر محصولات تسلا سری Pascal

NVIDIA همچنین پردازنده‌های گرافیکی Tesla P4 را عرضه کرده است. این GPUها عمدتا برای استفاده‌های embedded پیش‌بینی شده‌اند و انتظار نمی‌رود برای کاربردهای HPC مورد استفاده قرار گیرند.

رمزگذاری و رمزگشایی سخت‌افزاری ویدیو

تمام پردازنده‌های NVIDIA Pascal شامل یک یا چند واحد سخت‌افزاری برای رمزگذاری و رمزگشایی ویدیو (NVENC / NVDEC) می‌باشند. برای جزئیات کامل سخت‌افزاری، به ماتریس پشتیبانی از رمزگذار / رمزگشای مرجع NVIDIA مراجعه کنید.

مقایسه دقیق پردازنده‌های گرافیکی انویدیا تسلا سری Pascal

درباره ما

محصولات

تکنولوژی و برند

نمادها و مجوزها