نسل پردازنده‌های اینتل، سری XEON E5-2600v4

در این مبحث، به تجزیه و تحلیل جامع خانواده مقیاس پذیر پردازشگر 14 نانومتری اینتل Xeon (که به نامهای “Xeon E5-2600v4″ یا ” Broadwell-EP” شناخته می‌شود) می‌پردازیم. پردازنده‌های  ” Broadwell” جایگزین پردازنده‌های 22 نانومتری سری Haswell شده‌اند  و از ماه مارس 2016 برای فروش در دسترس همگان قرار گرفته‌اند.

نکته مهم: این سری از پردازنده‌ها با پردازنده‌های نسل جدید ÷ جایگزین شده‌اند.

مهمترین تغییرات موجود در پردازنده‌های Xeon E5-2600v4، سی‌پی‌یوهای ” Broadwell-EP” عبارتند از:

  • تا 22 هسته پردازشی به ازای هر سوکت ( با گزینه‌های 4، 6، 8، 10، 12، 14، 16، 18 و 20 هسته)
  • پشتیبانی از حافظه DDR4 تا فرکانس 2400 مگاهرتز
  • بهبود کارایی دستورالعمل‌های ممیز شناور:
    • ضرب‌کننده ممیز شناور سریع‌تر، عملیات را در 3 سیکل انجام می دهد (به جای 5 سیکل)
    • 1024 تقسیم‌کننده Radix برای کاهش تاخیر
    • Split Scalar برای افزایش موازی‌سازی و پهنای باند تقسیم می‌شود
    • Gather برداری سریع‌تر
    • همانند سری Haswell، خانواده Broadwell از دستورالعملهای AVX2 و FMA3 برای افزایش سرعت قابل توجهی عملیات جمع و ضرب ممیز شناور پشتیبانی می‌کند
  • اجرای موازی‎سازی بیشتر در زمانبندی عملیات میکرو:
    • کاهش تاخیرهای دستورالعمل در ADC، CMOV و PCLMULQDQ
    • زمانبند خارج از ترتیب بزرگتر، با 64 سلول (به جای 60 سلول)
    • بهبود پیش‌بینی آدرس برای انشعاب و بازگشت‌ها، با یک ارایه پیش‌بینی انشعاب 10 شاخه ( به جای 8 شاخه)
  • عملکرد بهبود یافته در مجموعه داده های بزرگ:
    • بافر L2 TLB بزرگتر، با 1500 ورودی (به جای 1000 ورودی)
    • یک L2 TLB جدید برای صفحات 1 گیگابایتی (با 16 ورودی)
    • اضافه کردن یک صفحه TLB دوم

عملکرد محاسباتی فوق العاده

پردازنده‌های Xeon E5-2600v4”” بالاترین کارایی را تا زمان ارائه این پردازنده‌ها ارائه می‌دهند. بسیاری از مدلها دارای توان اسمی بیش از 500 گیگافلاپس ( قابلیت انجام 500 میلیارد عملیات ممیز شناور با دقت مضاعف 64 بیتی در هر ثانیه) هستند. بیشتر ایت کارایی بالا به دلیل استفاده از AVX2 با دستورالعمل FMA3 امکان‌پذیر است. نمودار زیر حداکثر توان عملیاتی این CPUها را با استفاده از دستورات FMA و بدون آن مقایسه می‌کند.

میله‌های رنگی عملکرد را با استفاده از دستورالعمل‌های AVX نشان می‌دهد؛ میله‌های خاکستری حداکثر توان اسمی را هنگام استفاده از AVX با FMA نشان می‌دهد. توجه داشته باشید که تنها مجموعه کوچکی از کدها (به عنوان مثال LINPACK) قادر به استفاده از دستورالعملهای FMA هستند. اکثر برنامه‌های کاربردی دستورالعمل‌های مختلفی را فراخوان می کنند که باعث پایین آمدن FLOPS می شود. انتظار می‌رود که عملکرد به دست آمده برای برنامه‌هایی که به خوبی بهینه سازی و موازی سازی شده‌اند، بین میله‌های خاکستری و رنگی قرار بگیرد.

مشخصات پردازنده‌های اینتل Xeon E5-2600v4

نمودارهای زیر ویژگیها و مشخصات CPUهای اینتل سری E5-2600v4 را مقایسه می‌کند. اینتل این CPUها را به چند گروه تقسیم کرده است:

استاندارد: CPU مقرون به صرفه با عملکرد متوسط

پیشرفته: پردازنده‌هایی که بالاترین کارایی را برای اکثر برنامه‌ها ارائه می‌دهند

تعداد هسته بالا: ایده‌آل برای برنامه‌های چند رشته‌ای Multi-thread؛ پردازنده‌هایی که بیشترین تعداد هسته را ارائه می دهند (گاهی اوقات فرکانس ساعت به نفع تعداد هسته کاهش می‌یابد)

بهینه شده از لحاظ فرکانس: ایده‌آل برای برنامه‌های غیر موازی و تک رشته ای؛ CPUهایی با بالاترین سرعت ساعت (کاهش تعدادی از هسته‌ها برای ارائه بالاترین فرکانس‌ها)

اگر چه کارایی این پردازنده ها افزایش قابل توجهی داشته است، اما این افزایش کارایی بیشتر مرهون افزایش تعداد هسته، بهبود سرعت حافظه DDR و مواردی نظیر این است و در سرعت و فرکانس ساعت پردازنده پیشرفت قابل توجهی حاصل نشده است.

در واقع، در بعضی موارد، فرکانس CPU نسبت به مدل قبلی کاهش یافته است. فرکانس پردازنده و رفتار Turbo Boost در دو سری Haswell و Broadwell تغییرات قابل توجهی داشته‌اند. این معیارها در بخش بعدی بیشتر توضیح داده شده است.

 

سرعت کلاک و Turbo Boost در پردازنده‌های Intel Xeon E5-2600v4

با تولید هر نسل جدید از پردازنده‌ها، اینتل معماری خود را بهینه می کند. طراحی معماری ” Broadwell” در پاسخ به نیاز برنامه‌های بسیار موازی یا برداری است که بار زیادی را به هسته های پردازنده وارد می‌کنند (که در نتیجه مصرف توان بیشتری دارند و در نتیجه حرارت بیشتری تولید می کنند). در حالی که هسته CPU دستورات برداری (دستورالعمل های AVX) را اجرا می‌کند، سرعت کلاک کاهش می‌یابد تا مصرف توان پردازنده در حد نرمال (TDP) نگه داشته شود.

در نتیجه، این امر باعث می‌شود پردازنده در فرکانسی پایین‌تر از سرعت استاندارد کلاک اعلام شده برای هر مدل کار کند. از این رو، هر پردازنده ” Broadwell” دارای دو فرکانس پایه است:

  • حالت AVX: با توجه به مصرف توان بالای دستورالعمل های AVX، هنگام اجرای دستورات AVX، سرعت ساعت تا حدودی پایین خواهد بود.
  • حالت نرمال: در حالی که دستورات AVX را اجرا نکنید، پردازنده با فرکانس اعلام شده کار خواهد کرد.

شایان ذکر است که این حالت ها به طور مستقل برای هر هسته ای اعمال می‌شوند. در یک CPU، ممکن است برخی از هسته‌ها در حالت AVX کار کنند در حالی که هسته‌های دیگر در حالت نرمال کار می‌کنند.

همانند نسل های گذشته، پردازنده های ” Broadwell” شامل ویژگی Turbo Boost می شود که به هر هسته پردازنده اجازه می دهد تا در بیشتر عملیات ها به خوبی از سرعت “پایه” استفاده کند. افزایش سرعت ساعت به تعداد و میزان وظایف در هر CPU بستگی دارد. با این حال، افزایش سرعت Turbo Boost نیز به نوع دستورالعمل (AVX، Non-AVX) بستگی دارد.

نمودارهای زیر سرعت پردازنده را در شرایط زیر نشان می دهد:

  • تمامی هسته‌های CPU به طور فعال دستورالعمل‌های غیر AVX را اجرا می‌کنند
  • تمامی هسته‌های CPU به طور فعال دستورالعمل‌های AVX را اجرا می‌کنند
  • یک هسته به طور فعال دستورالعمل‌های غیر AVX را اجرا می‌کند (تمام هسته‌های دیگر پردازنده بیکار هستند)
  • یک هسته به طور فعال دستورالعمل‌های AVX را اجرا می‌کند (تمام هسته‌های دیگر پردازنده بیکار هستند)

توجه داشته باشید که با وجود قوانین روشن که در بالا به آن اشاره شد، برای هر مورد، یک طیف از سرعتهای ساعت آورده شده است. از آنجا که حجم کار بسیار متنوع است، اینتل قادر به تضمین یک فرکانس خاص برای دستورالعملهای AVX یا Non-AVX نیست و تنها تضمین می‌کند که هسته‎‌ها در یک محدوده خاص فرکانسی عمل می‌کنند. هر برنامه باید برای تعیین فرکانس عملکرد CPU، باید جداگانه تست شود.

بالاترین سرعت ساعت برای تعداد هسته معین

هنگامی که بار کاری از تعدادی از هسته‌های پردازنده استفاده نمی‌کند، پردازنده‌های Xeon E5-2600v4 قادرند فرکانس کاری هسته‌هایی که در حال انجام کار هستند را بالا ببرند. همانند سایر سناریوهای Turbo Boost، میزان افزایش سرعت به مدل CPU و همچنین اینکه چند هسته CPU فعال هستند، بستگی دارد.

سورین به کاربران توصیه می‌کند که در نظر داشته باشند که برنامه آنها قادر است چه تعداد هسته از CPU را اشباع کند. نمودارهای زیر جزئیات بالاترین فرکانس Turbo Boost را برای هر مدل CPU، نشان می‌دهد که بر اساس تعداد هسته‌های فعال مرتب شده است:

تمامی نمودارهای بالا فرکانس پردازنده برای برنامه های کاربردی با استفاده از دستورالعمل AVX نشان می دهد. میله های رنگی بدترین سناریو را نشان می دهند، پردازنده ها حداقل این سرعت را اجرا خواهند کرد. میله های خاکستری سرعت ساعت برای بیشتر کاربردهای متداول را نشان می‌دهد.

قیمت و کارایی پردازنده‌های Xeon E5-2600v4

بسیاری از پردازنده‌های نسل چهارم دارای ساختار قیمت مشابه همانند خانواده‌های قبلی E5-2600 هستند. با این حال، قیمت و مصرف توان برخی از مدلهای حرفه‌ای بالاتر از نسل‌های قبلی است. ممکن است حقایق زیر مفید باشد:

  • برای کاربردهای HPC، مدلهای پیشرفته کارایی بیشتری دارند. آنها معمولا به خوبی مدلهای با تعداد هسته نیستند.
  • مدل های با تعداد هسته بالا به طور کلی برای سرویسهای حرفه‌ای و اقتصادی طراحی شده‌اند و قیمت آنها نسبت به سایر مدلها بالاتر است.

نمودارهای زیر نسبت قیمت به کارایی این پردازنده‌ها را مقایسه می‌کند.

 

 

سیستم ها و سرورهای اینتل سورین


سرور ایستاده

با استفاده از پردازنده‌های اینتل زئون


سرور داخل رک

بر اساس پردازنده‌های اینتل زئون


کلاستر و سوپر کامپیوتر

با استفاده از پردازنده‌های اینتل زئون