مشخصات دقیق پردازندههای Broadwell-EP
نسل پردازندههای اینتل، سری XEON E5-2600v4
در این مبحث، به تجزیه و تحلیل جامع خانواده مقیاس پذیر پردازشگر 14 نانومتری اینتل Xeon (که به نامهای “Xeon E5-2600v4″ یا ” Broadwell-EP” شناخته میشود) میپردازیم. پردازندههای ” Broadwell” جایگزین پردازندههای 22 نانومتری سری Haswell شدهاند و از ماه مارس 2016 برای فروش در دسترس همگان قرار گرفتهاند.
نکته مهم: این سری از پردازندهها با پردازندههای نسل جدید ÷ جایگزین شدهاند.
مهمترین تغییرات موجود در پردازندههای Xeon E5-2600v4، سیپییوهای ” Broadwell-EP” عبارتند از:
- تا 22 هسته پردازشی به ازای هر سوکت ( با گزینههای 4، 6، 8، 10، 12، 14، 16، 18 و 20 هسته)
- پشتیبانی از حافظه DDR4 تا فرکانس 2400 مگاهرتز
- بهبود کارایی دستورالعملهای ممیز شناور:
- ضربکننده ممیز شناور سریعتر، عملیات را در 3 سیکل انجام می دهد (به جای 5 سیکل)
- 1024 تقسیمکننده Radix برای کاهش تاخیر
- Split Scalar برای افزایش موازیسازی و پهنای باند تقسیم میشود
- Gather برداری سریعتر
- همانند سری Haswell، خانواده Broadwell از دستورالعملهای AVX2 و FMA3 برای افزایش سرعت قابل توجهی عملیات جمع و ضرب ممیز شناور پشتیبانی میکند
- اجرای موازیسازی بیشتر در زمانبندی عملیات میکرو:
- کاهش تاخیرهای دستورالعمل در ADC، CMOV و PCLMULQDQ
- زمانبند خارج از ترتیب بزرگتر، با 64 سلول (به جای 60 سلول)
- بهبود پیشبینی آدرس برای انشعاب و بازگشتها، با یک ارایه پیشبینی انشعاب 10 شاخه ( به جای 8 شاخه)
- عملکرد بهبود یافته در مجموعه داده های بزرگ:
- بافر L2 TLB بزرگتر، با 1500 ورودی (به جای 1000 ورودی)
- یک L2 TLB جدید برای صفحات 1 گیگابایتی (با 16 ورودی)
- اضافه کردن یک صفحه TLB دوم
عملکرد محاسباتی فوق العاده
پردازندههای Xeon E5-2600v4”” بالاترین کارایی را تا زمان ارائه این پردازندهها ارائه میدهند. بسیاری از مدلها دارای توان اسمی بیش از 500 گیگافلاپس ( قابلیت انجام 500 میلیارد عملیات ممیز شناور با دقت مضاعف 64 بیتی در هر ثانیه) هستند. بیشتر ایت کارایی بالا به دلیل استفاده از AVX2 با دستورالعمل FMA3 امکانپذیر است. نمودار زیر حداکثر توان عملیاتی این CPUها را با استفاده از دستورات FMA و بدون آن مقایسه میکند.
میلههای رنگی عملکرد را با استفاده از دستورالعملهای AVX نشان میدهد؛ میلههای خاکستری حداکثر توان اسمی را هنگام استفاده از AVX با FMA نشان میدهد. توجه داشته باشید که تنها مجموعه کوچکی از کدها (به عنوان مثال LINPACK) قادر به استفاده از دستورالعملهای FMA هستند. اکثر برنامههای کاربردی دستورالعملهای مختلفی را فراخوان می کنند که باعث پایین آمدن FLOPS می شود. انتظار میرود که عملکرد به دست آمده برای برنامههایی که به خوبی بهینه سازی و موازی سازی شدهاند، بین میلههای خاکستری و رنگی قرار بگیرد.
مشخصات پردازندههای اینتل Xeon E5-2600v4
نمودارهای زیر ویژگیها و مشخصات CPUهای اینتل سری E5-2600v4 را مقایسه میکند. اینتل این CPUها را به چند گروه تقسیم کرده است:
استاندارد: CPU مقرون به صرفه با عملکرد متوسط
پیشرفته: پردازندههایی که بالاترین کارایی را برای اکثر برنامهها ارائه میدهند
تعداد هسته بالا: ایدهآل برای برنامههای چند رشتهای Multi-thread؛ پردازندههایی که بیشترین تعداد هسته را ارائه می دهند (گاهی اوقات فرکانس ساعت به نفع تعداد هسته کاهش مییابد)
بهینه شده از لحاظ فرکانس: ایدهآل برای برنامههای غیر موازی و تک رشته ای؛ CPUهایی با بالاترین سرعت ساعت (کاهش تعدادی از هستهها برای ارائه بالاترین فرکانسها)
اگر چه کارایی این پردازنده ها افزایش قابل توجهی داشته است، اما این افزایش کارایی بیشتر مرهون افزایش تعداد هسته، بهبود سرعت حافظه DDR و مواردی نظیر این است و در سرعت و فرکانس ساعت پردازنده پیشرفت قابل توجهی حاصل نشده است.
در واقع، در بعضی موارد، فرکانس CPU نسبت به مدل قبلی کاهش یافته است. فرکانس پردازنده و رفتار Turbo Boost در دو سری Haswell و Broadwell تغییرات قابل توجهی داشتهاند. این معیارها در بخش بعدی بیشتر توضیح داده شده است.
سرعت کلاک و Turbo Boost در پردازندههای Intel Xeon E5-2600v4
با تولید هر نسل جدید از پردازندهها، اینتل معماری خود را بهینه می کند. طراحی معماری ” Broadwell” در پاسخ به نیاز برنامههای بسیار موازی یا برداری است که بار زیادی را به هسته های پردازنده وارد میکنند (که در نتیجه مصرف توان بیشتری دارند و در نتیجه حرارت بیشتری تولید می کنند). در حالی که هسته CPU دستورات برداری (دستورالعمل های AVX) را اجرا میکند، سرعت کلاک کاهش مییابد تا مصرف توان پردازنده در حد نرمال (TDP) نگه داشته شود.
در نتیجه، این امر باعث میشود پردازنده در فرکانسی پایینتر از سرعت استاندارد کلاک اعلام شده برای هر مدل کار کند. از این رو، هر پردازنده ” Broadwell” دارای دو فرکانس پایه است:
- حالت AVX: با توجه به مصرف توان بالای دستورالعمل های AVX، هنگام اجرای دستورات AVX، سرعت ساعت تا حدودی پایین خواهد بود.
- حالت نرمال: در حالی که دستورات AVX را اجرا نکنید، پردازنده با فرکانس اعلام شده کار خواهد کرد.
شایان ذکر است که این حالت ها به طور مستقل برای هر هسته ای اعمال میشوند. در یک CPU، ممکن است برخی از هستهها در حالت AVX کار کنند در حالی که هستههای دیگر در حالت نرمال کار میکنند.
همانند نسل های گذشته، پردازنده های ” Broadwell” شامل ویژگی Turbo Boost می شود که به هر هسته پردازنده اجازه می دهد تا در بیشتر عملیات ها به خوبی از سرعت “پایه” استفاده کند. افزایش سرعت ساعت به تعداد و میزان وظایف در هر CPU بستگی دارد. با این حال، افزایش سرعت Turbo Boost نیز به نوع دستورالعمل (AVX، Non-AVX) بستگی دارد.
نمودارهای زیر سرعت پردازنده را در شرایط زیر نشان می دهد:
- تمامی هستههای CPU به طور فعال دستورالعملهای غیر AVX را اجرا میکنند
- تمامی هستههای CPU به طور فعال دستورالعملهای AVX را اجرا میکنند
- یک هسته به طور فعال دستورالعملهای غیر AVX را اجرا میکند (تمام هستههای دیگر پردازنده بیکار هستند)
- یک هسته به طور فعال دستورالعملهای AVX را اجرا میکند (تمام هستههای دیگر پردازنده بیکار هستند)
توجه داشته باشید که با وجود قوانین روشن که در بالا به آن اشاره شد، برای هر مورد، یک طیف از سرعتهای ساعت آورده شده است. از آنجا که حجم کار بسیار متنوع است، اینتل قادر به تضمین یک فرکانس خاص برای دستورالعملهای AVX یا Non-AVX نیست و تنها تضمین میکند که هستهها در یک محدوده خاص فرکانسی عمل میکنند. هر برنامه باید برای تعیین فرکانس عملکرد CPU، باید جداگانه تست شود.
بالاترین سرعت ساعت برای تعداد هسته معین
هنگامی که بار کاری از تعدادی از هستههای پردازنده استفاده نمیکند، پردازندههای Xeon E5-2600v4 قادرند فرکانس کاری هستههایی که در حال انجام کار هستند را بالا ببرند. همانند سایر سناریوهای Turbo Boost، میزان افزایش سرعت به مدل CPU و همچنین اینکه چند هسته CPU فعال هستند، بستگی دارد.
سورین به کاربران توصیه میکند که در نظر داشته باشند که برنامه آنها قادر است چه تعداد هسته از CPU را اشباع کند. نمودارهای زیر جزئیات بالاترین فرکانس Turbo Boost را برای هر مدل CPU، نشان میدهد که بر اساس تعداد هستههای فعال مرتب شده است:
تمامی نمودارهای بالا فرکانس پردازنده برای برنامه های کاربردی با استفاده از دستورالعمل AVX نشان می دهد. میله های رنگی بدترین سناریو را نشان می دهند، پردازنده ها حداقل این سرعت را اجرا خواهند کرد. میله های خاکستری سرعت ساعت برای بیشتر کاربردهای متداول را نشان میدهد.
قیمت و کارایی پردازندههای Xeon E5-2600v4
بسیاری از پردازندههای نسل چهارم دارای ساختار قیمت مشابه همانند خانوادههای قبلی E5-2600 هستند. با این حال، قیمت و مصرف توان برخی از مدلهای حرفهای بالاتر از نسلهای قبلی است. ممکن است حقایق زیر مفید باشد:
- برای کاربردهای HPC، مدلهای پیشرفته کارایی بیشتری دارند. آنها معمولا به خوبی مدلهای با تعداد هسته نیستند.
- مدل های با تعداد هسته بالا به طور کلی برای سرویسهای حرفهای و اقتصادی طراحی شدهاند و قیمت آنها نسبت به سایر مدلها بالاتر است.
نمودارهای زیر نسبت قیمت به کارایی این پردازندهها را مقایسه میکند.
سیستم ها و سرورهای اینتل سورین
|
|
|