جدیدترین نسل پردازنده‌های اینتل، سری Scalable

در این مبحث، به تجزیه و تحلیل جامع خانواده مقیاس پذیر پردازشگر 14 نانومتری اینتل Xeon (که به نامهای “Skylake-SP” یا “Skylake Scalable Processor” شناخته می‌شود) می‌پردازیم. پردازنده‌های  “Skylake-SP” جایگزین پردازنده‌های سری Broadwell (هر دو خانواده E5 و E7) شده‌اند  و از ماه جولای 2017 برای فروش در دسترس همگان قرار گرفته‌اند.

مهمترین تغییرات موجود در پردازنده‌های خانواده مقیاس‌پذیر Xeon، سی‌پی‌یوهای “Skylake-SP” عبارتند از:

  • تا 28 هسته پردازشی به ازای هر سوکت ( با گزینه‌های 4، 6، 8، 10، 12، 14، 16، 18، 20، 24 و 26 هسته)
  • بهبود کارایی دستورالعمل شناور و صحیح:
    • دستورالعملهای جدید AVX-512 با کارایی دوبرابر ( تا 16 عمل ممیز شناور با دقت مضاعف در هر سیکل به ازای هر واحد AVX-512 FMA)
    • تا دو واحد AVX-512 FMA به ازای هر هسته
  • بهبود عملکرد و ظرفیت حافظه اصلی
    • کنترل کننده حافظه شش کاناله در هر CPU (به جای چهار کانال در پردازنده‌های قبلی)
    • پشتیبانی از حافظه DDR4 تا فرکانس 2666 مگاهرتز
    • پشتیبانی از 1.5 ترابایت حافظه در هر سوکت
  • اتصالات سریعتر میان سوکتهای CPU با حداکثر 3 لینک UPI با نرخ 10.4 گیگاترنزکشن در ثانیه (جایگزین اتصالات قدیمی QPI)
  • اتصالات I/O بیشتر با 48 خط PCI-Express نسل 3.0 در هر CPU (به جای 40 خط)
  • پروفایلهای بهینه شده Turbo Boost امکان استفاده از فرکانسهای بالاتر را، حتی در زمان فعال بودن بسیاری از هسته‌های CPU، فراهم می‌آورد.
  • تمام خانواده‌های پردازنده برای سرورهای 2، 4 و  8 پردازنده‌ای به یک خانواده تبدیل می‌شوند
  • یک پلتفرم سرور جدید (که قبلا “Purley” نامیده می شود) برای پشتیبانی از این خانواده لازم است.

استراتژی جدید با سطوح پردازنده‌های جدید

با انتشار این محصول جدید، اینت7ل تمام خانواده های پیشین Xeon سرور را در یک خانواده ادغام کرد. اعداد مدلهای قدیمی که شما ممکن است با آنها آشنا باشید نظیر  E5-2600، E5-4600، E7-4800 و E7-8800، اکنون توسط پردازنده های “Skylake-SP” جایگزین شده است. در حالی که امکان انتخاب از طیف گسترده‌ای از مدلهای پردازنده برای هر پروژه‌ای فراهم می‌آورد، در عین حال نیازمند دقت به جزئیات است. بیش از 30 مدل CPU در خانواده پردازنده Intel Xeon Saleable وجود دارد.

این خانواده پردازنده به چهار سطح تقسیم می شود: برنز، نقره، طلا و پلاتین. مدل های نقره ای و طلایی در محدوده قیمتی قرار دارند که کاربران و سازندگان HPC با ان آشنایی دارند. با این حال، مدل‌های پلاتین در محدوده قیمت بالاتری نسبت به گروه های HPC قرار دارند. سطح پلاتین برای پروژه‌های سنگین طراحی شده است و به همین دلیل قیمت آن بالاست.

  • اینتل Xeon برنز – برای HPC توصیه نمی شود

مدلهای پایه با عملکرد پایین.

  • اینتل Xeon نقره – مناسب برای HPC در سطح ابتدایی

عملکرد کمی نسبت به نسل های گذشته بهبود یافته است.

  • اینتل Xeon طلایی – توصیه شده برای بیشتر کارهای HPC

دارای تناسب خوب بین عملکرد و قیمت. به طور عمومی، مدلهای سری 6100 باید بیش به مدل های سری 5100 ترجیح داده شوند، زیرا آنها تعداد واحد AVX-512 آنها دو برابر است.

  • اینتل Xeon پلاتین- توصیه شده برای کارهای HPC خاص

اگر چه این مدلها بالاترین عملکرد را ارائه می‌دهند، اما قیمت بالا، آنها را فقط برای موارد خاص که نیاز به قابلیتهای خاص دارند (مثلا SMP بزرگ و گره‌های پردازشی با حافظه بالا) مناسب می‌سازد.

عملکرد محاسباتی فوق العاده

پردازنده‌های Xeon Skylake-SP”” قابلیتهای جدید، انعطاف پذیری جدید و عملکرد بی‌سابقه‌ای را ارائه می‌دهند. بسیاری از مدلها دارای توان اسمی بیش از یک ترافلاپس ( قابلیت انجام 1000 میلیارد عملیات ممیز شناور با دقت مضاعف 64 بیتی در هر ثانیه) هستند و دو مدل تقریبا توان دو ترافلاپس را ارائه می‌دهند. این عملکرد با تعداد هسته‌های بالا و دستورالعمل جدید AVX-512 با FMA به دست می‌آید. نمودارهای زیر کارایی اسمی CPUهای این خانواده را مقایسه می‌کنند.

توجه داشته باشید که فقط یک مجموعه کوچک از کدها (به عنوان مثال LINPACK) قادر به استفاده از دستورالعملهای منحصربفرد AVX-512 FMA خواهند بود. اکثر برنامه‌های کاربردی از دستورالعمل‌های متفاوتی استفاده می‌کنند و بنابراین FLOPS پایین تری  به دست خواهند آورد.

توجه داشته باشید که هر مقایسه دو گروه جداگانه از CPU ها را با از یکدیگر جدا می کند. مدلهای CPU در سمت چپ هر نمودار، پردازنده‌هایی با تعداد هسته بالا را نشان می‌دهد (فرکانس CPU در اولویت دوم است). مدلهای CPU در سمت راست هر نمودار، پردازنده‌های با فرکانس بالا ( تعداد هسته CPUا در اولویت دوم قرار دارد) نمایش داده شده است. اینتل این مدل‌های سرعت بالا را به عنوان “بهینه شده برای بالاترین عملکرد در هر هسته” توصیف می کند. در نسل های گذشته، این مدل های CPU بهینه شده با فرکانس بالا، معمولا گزینه های مناسبی نبودند. با این حال، انتظار می رود انتخاب اولیه برای کاربران HPC در این نسل، مدلهایی است که بالاترین عملکرد هر هسته (با فرکانس بین 2 تا 3 گیگاهرتز) را ارائه می دهند. مدلهایی که فرکانس ساعت را در اولویت قرار  نمی‌دهند و در محدوده  1.5 تا 2 گیگاهرتز قرار دارند، مورد توجه بسیاری از کاربران HPC نخواهند بود.

محدوده قیمت پردازنده‌های Intel Xeon Scalable

از آنجائیکه قیمت پردازنده‌های خانواده Scalable  در محدوده وسیعی گسترده می‌شود، هنگام انتخاب، باید بودجه را در نظر داشته باشید. این امر می‌تواند شما را برای خرید برای پردازنده های 28 هسته‌ای ناامید کند، زیرا  قیمت آن بیش از 10،000 دلار برای هر CPU است.

نمودارهای زیر قیمت سطوح مختلف CPU را مقایسه می کنند. همانطور که در بالا ذکر شد، هر نمودار با پردازنده‌های با تعداد هسته بالا در سمت چپ و فرکانس بالا در سمت راست نمایش داده می‌شود.

مشخصات پردازنده‌های Intel Xeon Scalable

مجموعه‌ای از نمودارهای زیر، ویژگی‌ها و مشخصات این خانواده پردازنده جدید Xeon را مقایسه می کند. همانطور که مشاهده می‌کنید، Silver (سری 4100) و Low-end Gold (سری 5100)  قابلیتهای کمتری دارند و عملکرد پایین تری را ارائه می‌دهند. High-end Gold (سری 6100) و Platinum (سری 8100) قابلیتهای بیشتر و عملکرد بهتری را ارائه می دهند. علاوه بر این، در سری 6100 و سری 8100 مدلهایی وجود دارد که ویژگی‌های اضافی را ارائه می‌دهند:

  • پشتیبانی تا 1.5 ترابایت حافظه اصلی در هر سوکت CPU (نشان داده شده با یک پسوند M در شماره مدل پردازنده)
  • دربرگیرنده ارتباط 100 گیگابیت بر ثانیه Omni-Path (نشان داده شده با یک پسوند F در شماره مدل پردازنده)

علاوه بر افزایش قابل ملاحظه کارایی، در طراحی پردازنده‌های Scalable تغییرات قابل توجهی وجود دارد. این تغییرات شامل یک اتصال mesh جدید بین هسته‌های پردازنده، طراحی مجدد Cache های L2 / L3، اتصال بیشتر بین سوکت‌های CPU و تغییرات جدید در فرکانس پردازنده است. این موارد در بخش های زیر مورد بحث قرار می گیرد:

تعداد هسته‌های هر پردازنده:

 

سرعت حافظه DDR4

همانطور که در بالا نشان داده شده، عملکرد حافظه در این خانواده CPU نسبتا همگن است. مقدار پهنای باند حافظه در دسترس برای هر هسته CPU یک عامل مهم است، اما به سادگی تابعی از تعداد هسته است.

اندازه Cache L3

هر CPU حداقل 1.375 مگابایت Cache L3 به ازای هر هسته ارائه دهد. همانطور که در بالا نشان داده شده است، مدل های متعددی وجود دارد که مقدار بیشتری از L3 را در هر هسته دارند. به یاد داشته باشید که هر هسته همچنین دارای 1 مگابایت کش L2 اختصاصی است.

کارایی UPI

در معماری “Skylake-SP”، اینتل اتصال  QPI قدیمی را با UPI جایگزین کرده است. بازدهی در هر لینک از  9.6 GT/s به 10.4GT/s افزایش می‌یابد. علاوه بر این، بسیاری از مدلهای CPU تا 3 لینک UPI در هر سوکت (در مقایسه با 2 لینک QPI در بیشتر پلتفرمهای اولیه) را پشتیبانی می کنند. این امر اتصال قویتر بین سوکتها، به ویژه در سیستم‌های دو پردازنده‌ای، را فراهم می‌آورد.

مصرف توان

اگر چه هنوز مدلهای زیادی در همان محدوده مصرف پردازنده‌های نسلهای قبلی قرار دارند، تعداد بیشتری از مدلهای با TDP بیش از 140 وات وجود دارد. مصرف دو مدل حتی بیش از 200 وات است. برای این نسل، کاربران HPC باید مطمئن باشند که سیستم هایی که استفاده می کنند، طراحی مناسبی برای از بین بردن گرما داشته باشند. سیستم هایی که قادر به دفع حرارت نباشند، عملکرد پایین تری را تجربه می کنند.

 

سرعت کلاک و Turbo Boost در پردازنده‌های Intel Xeon Scalable

با تولید هر نسل جدید از پردازنده‌ها، اینتل معماری خود را بهینه می کند. طراحی معماری “Skylake-SP” در پاسخ به نیاز برنامه‌های بسیار موازی یا برداری است که بار زیادی را به هسته های پردازنده وارد می‌کنند (که در نتیجه مصرف توان بیشتری دارند و در نتیجه حرارت بیشتری تولید می کنند). در حالی که هسته CPU دستورات برداری (دستورالعمل های AVX یا AVX-512) را اجرا می‌کند، سرعت کلاک کاهش می‌یابد تا مصرف توان پردازنده در حد نرمال (TDP) نگه داشته شود.

در نتیجه، این امر باعث می‌شود پردازنده در فرکانسی پایین‌تر از سرعت استاندارد کلاک اعلام شده برای هر مدل کار کند. از این رو، هر پردازنده “Skylake-SP” دارای سه فرکانس پایه است:

  • حالت AVX-512: با توجه به نیازمندی‌های دستورالعمل های AVX-512 / FMA، هنگام اجرای دستورات AVX-512، سرعت ساعت پایین می‌آید.
  • حالت AVX: با توجه به مصرف توان بالای دستورالعمل های AVX2 / FMA، هنگام اجرای دستورات AVX، سرعت های ساعت تا حدودی پایین خواهد بود.
  • حالت نرمال: در حالی که دستورات AVX / AVX-512 را اجرا نکنید، پردازنده با فرکانس اعلام شده کار خواهد کرد.

هر یک از “حالت” های بالا در واقع یک طیف از سرعتهای CPU است. برای مجموعه معمول از دستورالعمل‌ها CPU با حداکثر سرعت کار خواهد کرد. شایان ذکر است که این حالت ها به طور مستقل برای هر هسته ای اعمال می‌شوند. در یک CPU، ممکن است برخی از هسته‌ها در حالت AVX کار کنند در حالی که هسته‌های دیگر در حالت نرمال کار می‌کنند.

همانند نسل های گذشته، پردازنده های “Skylake-SP” شامل ویژگی Turbo Boost می شود که به هر هسته پردازنده اجازه می دهد تا در بیشتر عملیات ها به خوبی از سرعت “پایه” استفاده کند. افزایش سرعت ساعت به تعداد و میزان وظایف در هر CPU بستگی دارد. با این حال، افزایش سرعت Turbo Boost نیز به نوع دستورالعمل (AVX-512، AVX، Non-AVX) بستگی دارد.

نمودارهای زیر سرعت پردازنده را در شرایط زیر نشان می دهد:

  • تمامی هسته‌های CPU به طور فعال دستورالعمل‌های غیر AVX، AVX، یا AVX-512 را اجرا می‌کنند
  • یک هسته به طور فعال دستورالعمل‌های غیر AVX، AVX، یا AVX-512 را اجرا می‌کند (تمام هسته‌های دیگر پردازنده بیکار هستند)

خطوط نقطه چین نشان دهنده طیفی از سرعتهای ساعت برای دستورالعمل‌های غیر AVX است. نوارهای نازک نشان دهنده طیف سرعتهای ساعت برای دستورالعمل‌های AVX2 / FMA هستند. میله‌های ضخیم‌تر نشان دهنده طیف سرعتهای ساعت برای دستورالعمل‌های AVX-512 / FMA می‌باشد.

توجه داشته باشید که با وجود قوانین روشن که در بالا به آن اشاره شد، برای هر مورد، یک طیف از سرعتهای ساعت آورده شده است. از آنجا که حجم کار بسیار متنوع است، اینتل قادر به تضمین یک فرکانس خاص برای دستورالعملهای AVX-512، AVX یا Non-AVX نیست و تنها تضمین می‌کند که هسته‎‌ها در یک محدوده خاص فرکانسی عمل می‌کنند. هر برنامه باید برای تعیین فرکانس عملکرد CPU، باید جداگانه تست شود.

با وجود کاهش فرکانس در هنگام اجرای این دستورات برداری، توجه داشته باشید که تعداد عملیاتی است که می‌تواند در هر چرخه AVX-512 اجرا شود، تقریبا دو برابر است. بنابراین، اگر چه سرعت ساعت کاهش می‌یابد، بازده کلی افزایش خواهد یافت.

 

قیمت و کارایی پردازنده‌های Xeon Scalable

بسیاری از پردازنده‌های جدید دارای ساختار قیمت مشابه همانند خانواده‌های زئون E5 و E7 هستند. با این حال، قیمت و مصرف توان برخی از مدلهای حرفه‌ای بالاتر از نسل های قبلی است. ممکن است حقایق زیر مفید باشد:

  • برای کاربردهای HPC، پردازنده‌های higher-end Gold و Platinum (سری 6100 و 8100) مناسب است، در حالیکه مدلهای پایین‌تر تنها نیمی از تعداد واحدهای محاسبه ریاضی را در اختیار دارند.
  • مدل های پلاتین (سری 8100) به طور کلی برای سرویسهای حرفه‌ای و اقتصادی طراحی شده‌اند و قیمت آنها نسبت به سایر مدلها بالاتر است.

نمودارهای زیر نسبت قیمت به کارایی این پردازنده‌ها را مقایسه می‌کند. به طور کلی، سری Xeon 6100 بهترین نسبت هزینه به کارایی را ارائه می دهد. پردازنده‌های سری Xeon 4100 و سری Xeon 5100 کمترین قیمت را دارند، اما تنها شامل یک واحد ریاضی AVX-512 هستند و  نسبت قیمت به کارایی مناسبی ندارند.

نمودارهای زیر مقادیر مصرف توان (TDP) و عملکرد هر CPU را مقایسه می کنند. اگر چه این نسل شامل برخی از پردازنده های با مصرف توان بالاست، اما مصرف آنها کاملا بهینه است. در واقع، هر دو مدل پردازنده با توان 205 وات در میان سه مدل برتر در این خانواده هستند.