نیازمندی های سخت افزاری برای اجرای مدل زبانی بزرگ (LLM)

پیش تر در خصوص مدل های زبانی بزرگ توضیح داده شده است. چنانچه با این مدل ها آشنا نیستید ابتدا آن را مطالعه کنید.

کارت گرافیک GPU

GPU مهم‌ترین قطعه سخت‌افزار هنگام اجرای مدل های زبانی بزرگ می باشد. عملکرد GPU ها تأثیر مستقیمی بر سرعت اجرای این مدل ها خواهد داشت.

پیاده سازی های مختلف از یک مدل زبانی بزرگ نیاز به سخت افزار های متفاوتی دارند. در جدول زیر مشخصات سخت افزارهای مورد نیاز برای مدل های مختلف ارائه گردیده است.

الزامات GPU برای مدل های LLaMA کوانتیزه شده 4 بیتی

اندازه مدل زبانی بزرگ (LLM)	حداقل حافظه GPU	GPU های پیشنهادی
7B	6GB	RTX 3060, AMD 5700 XT
13B	10GB	AMD 6900 XT, RTX 2060 12GB, 3060 12GB, 3080, A2000
30B	20GB	RTX A5000, RTX 3090, RTX 4090, RTX 6000, Tesla V100
65B	40GB	A100 40GB, 2x RTX 3090, 2x RTX 4090, A40, RTX A6000, RTX A8000

پردازنده مرکزی (CPU)

علاوه بر GPU، شما همچنین به یک CPU نیاز دارید که بتواند از GPU پشتیبانی کند و کارهای دیگری مانند بارگذاری داده ها و پیش پردازش را انجام دهد. نیاز به CPU برای مدل مبتنی بر GPU کمتر از مدلی است که برای CPU بهینه شده است.

پردازنده های خوب برای LLaMA برروی سرور از جمله Intel Xeon 6248R (24-core, 3.0GHz) یا AMD Epyc 9454 (48-core, 2.75GHz) استفاده کنید.

فرکانس بالا / تعداد هسته پایین

متعادل

فرکانس پایین / تعداد هسته بالا

Intel

Intel Xeon 6250

(8-core, 3.90GHz)

Intel Xeon 6248R

(24-core 3.0GHz)

Intel Xeon 6258R

(28-core 2.70GHz)

AMD

AMD Epyc 9174F

(16-core 4.10GHz)

AMD Epyc 9454

(48-core 2.75GHz)

AMD Epyc 9754

(128-core 2.25GHz)

انتخاب پردازنده مرکز (CPU) بر اساس نیاز پیش و پس پردازش می باشد. فرض بر این است اجرای مدل های زبانی بزرگ بر روی GPU انجام می گردد

حافظه اصلی

علاوه بر GPU و CPU، شما همچنین به حافظه (RAM) کافی و فضای ذخیره سازی برای ذخیره پارامترها و داده های مدل نیاز دارید. حداقل رم مورد نیاز برای یک مدل LLaMA-30B 4-بیتی، 32 گیگابایت است که می تواند کل مدل را بدون جابجایی روی دیسک در حافظه نگه دارد. با این حال، برای مجموعه داده های بزرگتر یا متون طولانی تر، ممکن است بخواهید از حافظه بیشتری مانند 64 گیگابایت یا 128 گیگابایت استفاده کنید.

اندازه مدل زبانی بزرگ (LLM)	اندازه واقعی	Quantized size (4-bit)	Quantized size (5-bit)	Quantized size (8-bit)
7B	13GB	3.9-7.5GB	7.5-8.5GB	8.5-10.0GB
13B	24GB	7.8-11GB	11.5-13.5GB	13.5-17.5GB
30B	60GB	19.5-23GB	23.5-27.5GB	28.5-38.5GB
65B	120GB	38.5-47.7GB	47.0-52.0GB	71.0-80.0GB

ذخیره سازی

حداقل فضای ذخیره سازی مورد نیاز برای LLaMA 1 ترابایت NVMe SSD است که می تواند فایل های مدل و فایل های داده را با سرعت خواندن و نوشتن سریع ذخیره کند. با این حال، برای اطلاعات بیشتر یا اهداف پشتیبان، ممکن است بخواهید از فضای ذخیره سازی بیشتری مانند 2 ترابایت یا 4 ترابایت SSD استفاده کنید.

ذخیره سازی با سرعت بالا را انتخاب کنید. یک SSD PCIe 4.0 NVMe با سرعت‌های متوالی عالی را انتخاب کنید تا انتقال سریع داده بین فضای ذخیره‌سازی و رم سیستم را تسهیل کنید.

منبع تغذیه و کیس

روی یک منبع تغذیه با کیفیت بالا با ظرفیت کافی برای تامین برق همه اجزا سرمایه گذاری کنید. یک کیس جادار با جریان هوای خوب برای حرارت مطلوب انتخاب کنید.

سرور مخصوص مدل های هوش مصنوعی میتوان سرور های زیر را معرفی کرد