مشخصات دقیق پردازندههای skylake-sp
جدیدترین نسل پردازندههای اینتل، سری Scalable
در این مبحث، به تجزیه و تحلیل جامع خانواده مقیاس پذیر پردازشگر 14 نانومتری اینتل Xeon (که به نامهای “Skylake-SP” یا “Skylake Scalable Processor” شناخته میشود) میپردازیم. پردازندههای “Skylake-SP” جایگزین پردازندههای سری Broadwell (هر دو خانواده E5 و E7) شدهاند و از ماه جولای 2017 برای فروش در دسترس همگان قرار گرفتهاند.
مهمترین تغییرات موجود در پردازندههای خانواده مقیاسپذیر Xeon، سیپییوهای “Skylake-SP” عبارتند از:
- تا 28 هسته پردازشی به ازای هر سوکت ( با گزینههای 4، 6، 8، 10، 12، 14، 16، 18، 20، 24 و 26 هسته)
- بهبود کارایی دستورالعمل شناور و صحیح:
- دستورالعملهای جدید AVX-512 با کارایی دوبرابر ( تا 16 عمل ممیز شناور با دقت مضاعف در هر سیکل به ازای هر واحد AVX-512 FMA)
- تا دو واحد AVX-512 FMA به ازای هر هسته
- بهبود عملکرد و ظرفیت حافظه اصلی
- کنترل کننده حافظه شش کاناله در هر CPU (به جای چهار کانال در پردازندههای قبلی)
- پشتیبانی از حافظه DDR4 تا فرکانس 2666 مگاهرتز
- پشتیبانی از 1.5 ترابایت حافظه در هر سوکت
- اتصالات سریعتر میان سوکتهای CPU با حداکثر 3 لینک UPI با نرخ 10.4 گیگاترنزکشن در ثانیه (جایگزین اتصالات قدیمی QPI)
- اتصالات I/O بیشتر با 48 خط PCI-Express نسل 3.0 در هر CPU (به جای 40 خط)
- پروفایلهای بهینه شده Turbo Boost امکان استفاده از فرکانسهای بالاتر را، حتی در زمان فعال بودن بسیاری از هستههای CPU، فراهم میآورد.
- تمام خانوادههای پردازنده برای سرورهای 2، 4 و 8 پردازندهای به یک خانواده تبدیل میشوند
- یک پلتفرم سرور جدید (که قبلا “Purley” نامیده می شود) برای پشتیبانی از این خانواده لازم است.
استراتژی جدید با سطوح پردازندههای جدید
با انتشار این محصول جدید، اینت7ل تمام خانواده های پیشین Xeon سرور را در یک خانواده ادغام کرد. اعداد مدلهای قدیمی که شما ممکن است با آنها آشنا باشید نظیر E5-2600، E5-4600، E7-4800 و E7-8800، اکنون توسط پردازنده های “Skylake-SP” جایگزین شده است. در حالی که امکان انتخاب از طیف گستردهای از مدلهای پردازنده برای هر پروژهای فراهم میآورد، در عین حال نیازمند دقت به جزئیات است. بیش از 30 مدل CPU در خانواده پردازنده Intel Xeon Saleable وجود دارد.
این خانواده پردازنده به چهار سطح تقسیم می شود: برنز، نقره، طلا و پلاتین. مدل های نقره ای و طلایی در محدوده قیمتی قرار دارند که کاربران و سازندگان HPC با ان آشنایی دارند. با این حال، مدلهای پلاتین در محدوده قیمت بالاتری نسبت به گروه های HPC قرار دارند. سطح پلاتین برای پروژههای سنگین طراحی شده است و به همین دلیل قیمت آن بالاست.
- اینتل Xeon برنز – برای HPC توصیه نمی شود
مدلهای پایه با عملکرد پایین.
- اینتل Xeon نقره – مناسب برای HPC در سطح ابتدایی
عملکرد کمی نسبت به نسل های گذشته بهبود یافته است.
- اینتل Xeon طلایی – توصیه شده برای بیشتر کارهای HPC
دارای تناسب خوب بین عملکرد و قیمت. به طور عمومی، مدلهای سری 6100 باید بیش به مدل های سری 5100 ترجیح داده شوند، زیرا آنها تعداد واحد AVX-512 آنها دو برابر است.
- اینتل Xeon پلاتین- توصیه شده برای کارهای HPC خاص
اگر چه این مدلها بالاترین عملکرد را ارائه میدهند، اما قیمت بالا، آنها را فقط برای موارد خاص که نیاز به قابلیتهای خاص دارند (مثلا SMP بزرگ و گرههای پردازشی با حافظه بالا) مناسب میسازد.
عملکرد محاسباتی فوق العاده
پردازندههای Xeon Skylake-SP”” قابلیتهای جدید، انعطاف پذیری جدید و عملکرد بیسابقهای را ارائه میدهند. بسیاری از مدلها دارای توان اسمی بیش از یک ترافلاپس ( قابلیت انجام 1000 میلیارد عملیات ممیز شناور با دقت مضاعف 64 بیتی در هر ثانیه) هستند و دو مدل تقریبا توان دو ترافلاپس را ارائه میدهند. این عملکرد با تعداد هستههای بالا و دستورالعمل جدید AVX-512 با FMA به دست میآید. نمودارهای زیر کارایی اسمی CPUهای این خانواده را مقایسه میکنند.
توجه داشته باشید که فقط یک مجموعه کوچک از کدها (به عنوان مثال LINPACK) قادر به استفاده از دستورالعملهای منحصربفرد AVX-512 FMA خواهند بود. اکثر برنامههای کاربردی از دستورالعملهای متفاوتی استفاده میکنند و بنابراین FLOPS پایین تری به دست خواهند آورد.
توجه داشته باشید که هر مقایسه دو گروه جداگانه از CPU ها را با از یکدیگر جدا می کند. مدلهای CPU در سمت چپ هر نمودار، پردازندههایی با تعداد هسته بالا را نشان میدهد (فرکانس CPU در اولویت دوم است). مدلهای CPU در سمت راست هر نمودار، پردازندههای با فرکانس بالا ( تعداد هسته CPUا در اولویت دوم قرار دارد) نمایش داده شده است. اینتل این مدلهای سرعت بالا را به عنوان “بهینه شده برای بالاترین عملکرد در هر هسته” توصیف می کند. در نسل های گذشته، این مدل های CPU بهینه شده با فرکانس بالا، معمولا گزینه های مناسبی نبودند. با این حال، انتظار می رود انتخاب اولیه برای کاربران HPC در این نسل، مدلهایی است که بالاترین عملکرد هر هسته (با فرکانس بین 2 تا 3 گیگاهرتز) را ارائه می دهند. مدلهایی که فرکانس ساعت را در اولویت قرار نمیدهند و در محدوده 1.5 تا 2 گیگاهرتز قرار دارند، مورد توجه بسیاری از کاربران HPC نخواهند بود.
محدوده قیمت پردازندههای Intel Xeon Scalable
از آنجائیکه قیمت پردازندههای خانواده Scalable در محدوده وسیعی گسترده میشود، هنگام انتخاب، باید بودجه را در نظر داشته باشید. این امر میتواند شما را برای خرید برای پردازنده های 28 هستهای ناامید کند، زیرا قیمت آن بیش از 10،000 دلار برای هر CPU است.
نمودارهای زیر قیمت سطوح مختلف CPU را مقایسه می کنند. همانطور که در بالا ذکر شد، هر نمودار با پردازندههای با تعداد هسته بالا در سمت چپ و فرکانس بالا در سمت راست نمایش داده میشود.
مشخصات پردازندههای Intel Xeon Scalable
مجموعهای از نمودارهای زیر، ویژگیها و مشخصات این خانواده پردازنده جدید Xeon را مقایسه می کند. همانطور که مشاهده میکنید، Silver (سری 4100) و Low-end Gold (سری 5100) قابلیتهای کمتری دارند و عملکرد پایین تری را ارائه میدهند. High-end Gold (سری 6100) و Platinum (سری 8100) قابلیتهای بیشتر و عملکرد بهتری را ارائه می دهند. علاوه بر این، در سری 6100 و سری 8100 مدلهایی وجود دارد که ویژگیهای اضافی را ارائه میدهند:
- پشتیبانی تا 1.5 ترابایت حافظه اصلی در هر سوکت CPU (نشان داده شده با یک پسوند M در شماره مدل پردازنده)
- دربرگیرنده ارتباط 100 گیگابیت بر ثانیه Omni-Path (نشان داده شده با یک پسوند F در شماره مدل پردازنده)
علاوه بر افزایش قابل ملاحظه کارایی، در طراحی پردازندههای Scalable تغییرات قابل توجهی وجود دارد. این تغییرات شامل یک اتصال mesh جدید بین هستههای پردازنده، طراحی مجدد Cache های L2 / L3، اتصال بیشتر بین سوکتهای CPU و تغییرات جدید در فرکانس پردازنده است. این موارد در بخش های زیر مورد بحث قرار می گیرد:
تعداد هستههای هر پردازنده:
سرعت حافظه DDR4
همانطور که در بالا نشان داده شده، عملکرد حافظه در این خانواده CPU نسبتا همگن است. مقدار پهنای باند حافظه در دسترس برای هر هسته CPU یک عامل مهم است، اما به سادگی تابعی از تعداد هسته است.
اندازه Cache L3
هر CPU حداقل 1.375 مگابایت Cache L3 به ازای هر هسته ارائه دهد. همانطور که در بالا نشان داده شده است، مدل های متعددی وجود دارد که مقدار بیشتری از L3 را در هر هسته دارند. به یاد داشته باشید که هر هسته همچنین دارای 1 مگابایت کش L2 اختصاصی است.
کارایی UPI
در معماری “Skylake-SP”، اینتل اتصال QPI قدیمی را با UPI جایگزین کرده است. بازدهی در هر لینک از 9.6 GT/s به 10.4GT/s افزایش مییابد. علاوه بر این، بسیاری از مدلهای CPU تا 3 لینک UPI در هر سوکت (در مقایسه با 2 لینک QPI در بیشتر پلتفرمهای اولیه) را پشتیبانی می کنند. این امر اتصال قویتر بین سوکتها، به ویژه در سیستمهای دو پردازندهای، را فراهم میآورد.
مصرف توان
اگر چه هنوز مدلهای زیادی در همان محدوده مصرف پردازندههای نسلهای قبلی قرار دارند، تعداد بیشتری از مدلهای با TDP بیش از 140 وات وجود دارد. مصرف دو مدل حتی بیش از 200 وات است. برای این نسل، کاربران HPC باید مطمئن باشند که سیستم هایی که استفاده می کنند، طراحی مناسبی برای از بین بردن گرما داشته باشند. سیستم هایی که قادر به دفع حرارت نباشند، عملکرد پایین تری را تجربه می کنند.
سرعت کلاک و Turbo Boost در پردازندههای Intel Xeon Scalable
با تولید هر نسل جدید از پردازندهها، اینتل معماری خود را بهینه می کند. طراحی معماری “Skylake-SP” در پاسخ به نیاز برنامههای بسیار موازی یا برداری است که بار زیادی را به هسته های پردازنده وارد میکنند (که در نتیجه مصرف توان بیشتری دارند و در نتیجه حرارت بیشتری تولید می کنند). در حالی که هسته CPU دستورات برداری (دستورالعمل های AVX یا AVX-512) را اجرا میکند، سرعت کلاک کاهش مییابد تا مصرف توان پردازنده در حد نرمال (TDP) نگه داشته شود.
در نتیجه، این امر باعث میشود پردازنده در فرکانسی پایینتر از سرعت استاندارد کلاک اعلام شده برای هر مدل کار کند. از این رو، هر پردازنده “Skylake-SP” دارای سه فرکانس پایه است:
- حالت AVX-512: با توجه به نیازمندیهای دستورالعمل های AVX-512 / FMA، هنگام اجرای دستورات AVX-512، سرعت ساعت پایین میآید.
- حالت AVX: با توجه به مصرف توان بالای دستورالعمل های AVX2 / FMA، هنگام اجرای دستورات AVX، سرعت های ساعت تا حدودی پایین خواهد بود.
- حالت نرمال: در حالی که دستورات AVX / AVX-512 را اجرا نکنید، پردازنده با فرکانس اعلام شده کار خواهد کرد.
هر یک از “حالت” های بالا در واقع یک طیف از سرعتهای CPU است. برای مجموعه معمول از دستورالعملها CPU با حداکثر سرعت کار خواهد کرد. شایان ذکر است که این حالت ها به طور مستقل برای هر هسته ای اعمال میشوند. در یک CPU، ممکن است برخی از هستهها در حالت AVX کار کنند در حالی که هستههای دیگر در حالت نرمال کار میکنند.
همانند نسل های گذشته، پردازنده های “Skylake-SP” شامل ویژگی Turbo Boost می شود که به هر هسته پردازنده اجازه می دهد تا در بیشتر عملیات ها به خوبی از سرعت “پایه” استفاده کند. افزایش سرعت ساعت به تعداد و میزان وظایف در هر CPU بستگی دارد. با این حال، افزایش سرعت Turbo Boost نیز به نوع دستورالعمل (AVX-512، AVX، Non-AVX) بستگی دارد.
نمودارهای زیر سرعت پردازنده را در شرایط زیر نشان می دهد:
- تمامی هستههای CPU به طور فعال دستورالعملهای غیر AVX، AVX، یا AVX-512 را اجرا میکنند
- یک هسته به طور فعال دستورالعملهای غیر AVX، AVX، یا AVX-512 را اجرا میکند (تمام هستههای دیگر پردازنده بیکار هستند)
خطوط نقطه چین نشان دهنده طیفی از سرعتهای ساعت برای دستورالعملهای غیر AVX است. نوارهای نازک نشان دهنده طیف سرعتهای ساعت برای دستورالعملهای AVX2 / FMA هستند. میلههای ضخیمتر نشان دهنده طیف سرعتهای ساعت برای دستورالعملهای AVX-512 / FMA میباشد.
توجه داشته باشید که با وجود قوانین روشن که در بالا به آن اشاره شد، برای هر مورد، یک طیف از سرعتهای ساعت آورده شده است. از آنجا که حجم کار بسیار متنوع است، اینتل قادر به تضمین یک فرکانس خاص برای دستورالعملهای AVX-512، AVX یا Non-AVX نیست و تنها تضمین میکند که هستهها در یک محدوده خاص فرکانسی عمل میکنند. هر برنامه باید برای تعیین فرکانس عملکرد CPU، باید جداگانه تست شود.
با وجود کاهش فرکانس در هنگام اجرای این دستورات برداری، توجه داشته باشید که تعداد عملیاتی است که میتواند در هر چرخه AVX-512 اجرا شود، تقریبا دو برابر است. بنابراین، اگر چه سرعت ساعت کاهش مییابد، بازده کلی افزایش خواهد یافت.
قیمت و کارایی پردازندههای Xeon Scalable
بسیاری از پردازندههای جدید دارای ساختار قیمت مشابه همانند خانوادههای زئون E5 و E7 هستند. با این حال، قیمت و مصرف توان برخی از مدلهای حرفهای بالاتر از نسل های قبلی است. ممکن است حقایق زیر مفید باشد:
- برای کاربردهای HPC، پردازندههای higher-end Gold و Platinum (سری 6100 و 8100) مناسب است، در حالیکه مدلهای پایینتر تنها نیمی از تعداد واحدهای محاسبه ریاضی را در اختیار دارند.
- مدل های پلاتین (سری 8100) به طور کلی برای سرویسهای حرفهای و اقتصادی طراحی شدهاند و قیمت آنها نسبت به سایر مدلها بالاتر است.
نمودارهای زیر نسبت قیمت به کارایی این پردازندهها را مقایسه میکند. به طور کلی، سری Xeon 6100 بهترین نسبت هزینه به کارایی را ارائه می دهد. پردازندههای سری Xeon 4100 و سری Xeon 5100 کمترین قیمت را دارند، اما تنها شامل یک واحد ریاضی AVX-512 هستند و نسبت قیمت به کارایی مناسبی ندارند.
نمودارهای زیر مقادیر مصرف توان (TDP) و عملکرد هر CPU را مقایسه می کنند. اگر چه این نسل شامل برخی از پردازنده های با مصرف توان بالاست، اما مصرف آنها کاملا بهینه است. در واقع، هر دو مدل پردازنده با توان 205 وات در میان سه مدل برتر در این خانواده هستند.