انویدیا با معرفی Blackwell Ultra آخرین عضو خانوادهی بلکول پیش از گذار به معماری روبین (Rubin)، بار دیگر قدرت خود را در صنعت تراشههای هوش مصنوعی به نمایش گذاشته است. این تراشه برخلاف نسلهای پیشین شباهت چندانی به خانوادهی بلکول ندارد و از نظر طراحی سیلیکون، توان پردازشی و ورودی/خروجی تفاوتهای چشمگیری را نشان میدهد. بر اساس اطلاعات منتشرشده در وبلاگ رسمی انویدیا، این پردازنده نه تنها از نظر سختافزاری بلکه در حوزهی نرمافزار و بهینهسازی نیز پیشرفتهای گستردهای را تجربه کرده است. با ما در آیتی پرس همراه باشید.
یکی از ویژگیهای برجستهی بلکول اولترا استفاده از رابط PCIe نسل ششم است؛ در حالی که نسخههای عای بلکول و سرورهای استاندارد همچنان بر پایهی PCIe نسل پنجم فعالیت میکنند. این تراشه با فناوری پیشرفتهی TSMC 4NP ساخته شده و بیش از ۲۰۸ میلیارد ترانزیستور را در خود جای داده است که به معنای ۲.۶ برابر افزایش نسبت به نسل پیشین موسوم به هاپر (Hopper) است. توان حرارتی این تراشه به ۱۴۰۰ وات میرسد که خود نشاندهندهی نیاز به سیستمهای خنککنندهی قدرتمند و پیشرفته در دیتاسنترهاست.

از نظر عملکرد، بلکول اولترا حدود ۱.۵ برابر تراکم محاسباتی NVFP4 بیشتری نسبت به بلکول ارائه میدهد. این پیشرفت موجب افزایش سرعت در تولید توکنها در پردازشهای استنتاج(reasoning) و بهبود چشمگیر در توان عملیاتی هنگام آموزش مدلهای بزرگ میشود. این تراشه با ترکیب ۱۶۰ واحد SM در دو دای رتیکل و اتصال از طریق لینک NV-HBI، توانایی ایجاد یک بستر ارتباطی با سرعت ۱۰ ترابایت بر ثانیه را دارد. افزون بر این، استفاده از ۲۸۸ گیگابایت حافظه HBM3E با پهنای باندی تا ۸ ترابایت بر ثانیه و هستههای تنسور نسل پنجم بهینهسازیشده برای NVFP4، این پردازنده را به انتخابی بیرقیب برای کاربردهای هوش مصنوعی سنگین تبدیل میکند. همچنین دو برابر شدن توان واحدهای محاسباتی ویژه (SFUs) در اجرای توابع پیچیدهی ریاضی باعث کاهش تأخیر در عملیات softmax و افزایش سرعت پاسخدهی در پردازشهای استدلالی شده است.

در مقیاس سیستمی، انویدیا راهکار GB300 NVL72 را بهعنوان ساختار مرجع ارائه کرده است. این سیستم شامل رکهای خنکشونده با مایع است که از سوپرچیپهای Grace Blackwell Ultra ساخته شدهاند و توان پردازشی در سطح اگزاسکیل را در حوزهی FP4 متراکم فراهم میکنند. چنین معماری در مقایسه با پلتفرمهای قبلی HGX بهرهوری انرژی بسیار بالاتری را به همراه دارد.

اما تنها سختافزار نیست که اهمیت دارد؛ در بخش نرمافزاری نیز انویدیا تغییرات مهمی را پیادهسازی کرده است. پشتیبانی کامل از CUDA همچنان برقرار است و در کنار آن ابزارهایی نظیر TensorRT-LLM، زمانبندی Dynamo و بهینهسازهای مدل آگاه از دقت (Precision-Aware Optimizers) نقش مهمی در افزایش بهرهوری و کاهش هزینهی پردازش هر توکن ایفا میکنند. افزون بر این، قابلیتهایی نظیر پارتیشنبندی پیشرفته MIG، محاسبات محرمانه TEE-I/O، سختافزار اختصاصی فشردهسازی داده و گسترش شبکهی NVLink، این پلتفرم را به انتخابی بینقص برای دیتاسنترها بدل کرده است.
برای اپراتورهای دیتاسنتر که به دنبال بالاترین سطح تراکم و کارایی هستند، بلکول اولترا پاسخی ایدهآل است. طراحی آن با تمرکز بر افزایش حجم حافظهی درونتراشهای، سرعت بالاتر ارتباطات I/O از طریق PCIe Gen 6 و همافزایی نرمافزار و سختافزار، موجب میشود تا مقیاسپذیری در استنتاج و پایداری عملیاتی در سطحی بیسابقه در اختیار مراکز داده قرار گیرد.

