شاید فکر کنید استفاده از چتباتها یا دستیارهای هوش مصنوعی، صرفاً ابزاری سرگرمکننده یا کمکی برای کارهای روزمره است.
به گزارش تابناک به نقل از فارس؛ اما واقعیت این است که هر تعامل ما، هر سؤالی که میپرسیم و هر پاسخی که دریافت میکنیم، تحت تأثیر معماریها و تصمیمات مهندسی قرار دارد که در نهایت، مسیر پیشرفت اطلاعات، آموزش و حتی نحوهی تفکر ما را شکل میدهد.
آگاهی از این جزئیات فنی و ظریف، به ما قدرت میدهد تا از این فناوریهای شگفتانگیز به درستی استفاده کنیم و از آنها مطالبه کنیم که شفافتر، منصفتر و دقیقتر باشند. با درک این سازوکارها، میتوانیم به جای تماشاگر بودن، به بازیگری فعال در این عرصه تبدیل شویم و در کنار غولهای فناوری، آیندهای قدرتمند و متوازن را بسازیم.
این گزارش نه تنها به ما میگوید که این مدلها چگونه کار میکنند، بلکه به ما نشان میدهد که چرا آگاهی از این سازوکارها، کلید توانمندسازی ماست.
از واژگان آماری تا مغزهای عصبی
دههها پیش، تلاش برای درک زبان انسان به مدلهای زبانی آماری محدود میشد. این مدلها که بر اساس تکرار کلمات و احتمال وقوع آنها کار میکردند، تنها برای وظایف سادهای مانند پیشبینی کلمهی بعدی کافی بودند و در فهم پیچیدگیهای زبانی کاملاً ناتوان بودند.
اما در اواخر دههی ۱۹۸۰، با ظهور مدلهای زبانی عصبی، تحولی بزرگ آغاز شد. این مدلها به جای شمارش کلمات، از شبکههای عصبی برای ایجاد نمایشهای توزیعشده و غنی از زبان استفاده کردند، که باعث بهبود چشمگیر درک زبانی شد. این گذار، اولین گام در مسیر ساخت مدلهای هوشمندی بود که امروز میشناسیم و توانستند از محدودیتهای گذشته عبور کنند.
انقلاب ترنسفورمر، معماریای که در حال تغییرات جهانی است!
نقطهی عطف واقعی در سال ۲۰۱۷ و با انتشار مقالهی سرنوشتساز «اَتنشن همان چیزی است که نیاز دارید» رقم خورد. این مقاله معماری ترنسفورمر را معرفی کرد، که وابستگیهای بازگشتی سنگین مدلهای قبلی را حذف و به جای آن از یک مکانیسم جدید به نام «خود-متوجه» استفاده کرد.
این مکانیزم به مدل اجازه میدهد تا در یک نگاه، به تمام کلمات یک جمله نگاه کند و ارتباط معنایی آنها را بفهمد، فارغ از اینکه چقدر از هم دور هستند. این نوآوری، زمینه را برای ظهور مدلهای زبانی از پیشآموزشدیده مانند بِرت (BERT) و جیپیتی-۲ فراهم کرد که عملکردی بینظیر داشتند.
اما داستان به همینجا ختم نشد. محققان به سرعت دریافتند که با افزایش مقیاس ترنسفورمرها، قابلیتهای شگفتانگیزی از آنها پدیدار میشود. در سال ۲۰۲۰، با معرفی جیپیتی-۳ که ۱۷۵ میلیارد پارامتر داشت، قابلیتهایی مانند یادگیری بدون نمونه (zero-shot) و با چند نمونه (few-shot) کشف شد.
این یعنی مدل میتوانست با دیدن تنها چند مثال یا حتی بدون هیچ مثالی، یک وظیفه جدید را انجام دهد، قابلیتی که تا پیش از آن غیرقابل تصور بود. این موضوع، شروع عصر مدلهای زبانی بزرگ بود.
بعنوان مثال اگر مدل بخواهد جملهی «کتابی که دیروز خریدم و در آن داستانی جذاب از یک اژدها بود، واقعاً من را جذب کرد» را بفهمد، یک مدل قدیمی باید کلمه به کلمه پیش میرفت و ممکن بود ارتباط «آن» را با «کتاب» فراموش کند. اما یک مدل ترنسفورمر به لطف «خود-متوجه»، همزمان به تمام کلمات نگاه کرده و میفهمد که «آن» به «کتاب» اشاره دارد، حتی با وجود چندین کلمه فاصله.
رقابت سازنده میان متنبازها و غولهای اختصاصی
امروزه، دو جریان اصلی در دنیای مدلهای زبانی بزرگ در حال رقابت سازنده هستند. از یک سو، مدلهای اختصاصی مانند مدلهای شرکت اوپنایآی (OpenAI) و گوگل قرار دارند که وزنهای آنها محرمانه است و کنترل کامل آنها در دست شرکتهاست.
از سوی دیگر، جامعهی متنباز با ابتکاراتی مانند مدل لاما (LLaMA) از شرکت متا و نسخههای مختلف آن، با قدرت وارد میدان شدهاند. لاما و پروژههایی مانند ویکونا ثابت کردند که با دسترسی عمومی به وزنهای مدل و تلاشهای جامعهمحور، میتوان به عملکردی بسیار نزدیک به مدلهای اختصاصی دست یافت.
مثلاً اگر شما یک پژوهشگر در دانشگاه باشید، دسترسی به یک مدل متنباز مانند لاما به شما اجازه میدهد تا آن را مطابق نیازهای خود تغییر دهید یا با آن آزمایشهای جدیدی انجام دهید. اما با یک مدل اختصاصی، شما فقط میتوانید از آن به عنوان یک ابزار آماده استفاده کنید، بدون اینکه بتوانید به سازوکار درونی آن دسترسی داشته باشید.
این رقابت نه تنها باعث پیشرفت سریعتر میشود، بلکه به در دسترس قرار گرفتن این فناوری کمک میکند و به پژوهشگران و شرکتهای کوچکتر اجازه میدهد تا نوآوری کنند.
فراتر از قدرت پردازش: تفاوتهای ظریف در اجزای مدل
موضوع تنها به تعداد پارامترها و قدرت پردازش محدود نمیشود. آنچه که یک مدل را از دیگری متمایز میکند، جزئیات ظریف معماری آن است. به عنوان مثال، روشهای نرمالسازی نقش حیاتی در پایدارسازی فرآیند آموزش دارند.
در حالی که مدلهای قدیمیتر مانند جیپیتی-۳ و برت از نرمالسازی لایهای استفاده میکنند، خانواده مدلهای لاما از یک روش کارآمدتر به نام نرمالسازی ریشه میانگین مربعات بهره میبرند که به افزایش سرعت کمک میکند.
همچنین، نحوهی کدگذاری اطلاعات ترتیبی در جملات نیز متفاوت است. برخی مدلها از اِمبِدینگهای موقعیتی مطلق استفاده میکنند، در حالی که مدلهای پیشرفتهتر مانند پالم ۲ (PaLM 2) از اِمبِدینگهای چرخشی استفاده میکنند که در مدیریت دنبالههای طولانی عملکرد بهتری دارند.
حتی توابع فعالسازی که به مدلها قدرت غیرخطی بودن میدهند، متفاوت هستند. در حالی که ژلو (GeLU) یک انتخاب رایج است، مدلهای جدیدتر از نسخههای بهبود یافتهای مانند سویگلو (SwiGLU) و ژگلو (GeGLU) استفاده میکنند که عملکرد بهتری را به نمایش میگذارند. این جزئیات کوچک، مانند تنظیم دقیق یک ساعت سوئیسی، در نهایت تفاوتهای بزرگی در کارایی و دقت مدل ایجاد میکنند.
قدرت خام در برابر طراحی بهینه
برای توضیح بهتر و شفافتر تعداد پارامترها را میتوان به قدرت موتور یک خودروی مسابقه تشبیه کرد؛ هر دو مدل ممکن است ۱۰۰۰ اسب بخار قدرت داشته باشند، اما یکی از آنها به دلیل طراحی بهینه، سریعتر و کارآمدتر عمل میکند. این تفاوت در عملکرد، به دلیل جزئیات معماری است.
روشهای نرمالسازی مانند سیستم تعلیق خودرو عمل میکنند. یک سیستم تعلیق پیشرفتهتر (مانند نرمالسازی ریشه میانگین مربعات) به مدل اجازه میدهد در شرایط پیچیده، پایدار بماند و با سرعت بیشتری حرکت کند، در حالی که یک سیستم قدیمیتر (مانانرمالسازی لایهای) ممکن است دچار لرزش و کندی شود.
کدگذاری موقعیتی مانند سیستم فرمان خودرو عمل میکند. یک سیستم فرمان ساده (مانند کدگذاری موقعیتی مطلق) ممکن است در پیچهای تند و طولانی به مشکل بر بخورد، اما یک سیستم پیشرفتهتر (مانند اِمبِدینگ چرخشی) به مدل امکان میدهد تا در پیچهای پیچیدهتر و طولانیتر نیز با دقت و کارایی بالا حرکت کند.
در نتیجه، یک مدل با تعداد پارامترهای کمتر اما با معماری بهینه، میتواند عملکردی بهتر از یک مدل با پارامترهای بیشتر اما با معماری قدیمیتر داشته باشد.
خروج از معماری یکپارچه: موج جدید ترکیب متخصصان
یکی از بزرگترین محدودیتهای معماری ترنسفورمر سنتی، ساختار یکپارچهی آن است که در آن تمام پارامترها برای پردازش هر توکن فعال میشوند. این روش، حتی در مدلهای عظیم با صدها میلیارد پارامتر، ناکارآمد است.
اما اکنون، یک رویکرد جدید به نام ترکیب متخصصان در حال اوجگیری است. در این معماری، مدل به چندین «شبکه متخصص» تقسیم میشود. هنگامی که یک توکن ورودی وارد میشود، یک مسیریاب هوشمندانه تنها دو یا چند شبکه متخصص مرتبط را برای پردازش آن توکن انتخاب میکند.
مدل میکسترال ۸x۷بی (Mixtral 8x7B) که وزنهای آن متنباز است و دیپسیک-ورژن۳ با ۶۷۱ میلیارد پارامتر که تنها ۳۷ میلیارد پارامتر آن برای هر توکن فعال میشود، نمونههایی از قدرت این معماری هستند.
این رویکرد به مدلها اجازه میدهد تا با تعداد پارامترهای بسیار زیاد و در عین حال با هزینهی محاسباتی به مراتب کمتر، به عملکردی فوقالعاده دست یابند. این به معنی دسترسی به مدلهای بسیار بزرگ و کارآمدتر برای طیف وسیعتری از کاربران و پژوهشگران است.
بعنوان مثال تصور کنید یک مدل ترکیب متخصصان میخواهد به سؤال چگونه یک برنامهی به زبان پایتون بنویسم؟ پاسخ دهد. به جای فعال کردن تمام بخشهای مدل، مسیریاب هوشمند آن تنها بخشهای مربوط به برنامهنویسی و پایتون را فعال میکند. این کار مانند این است که به جای مشورت با تمام کارمندان یک شرکت بزرگ، فقط از متخصصان همان حوزه کمک بگیریم که باعث صرفهجویی عظیم در زمان و منابع میشود.
دنیای پنهان بهینهسازی: جادوهای پشت پرده
آموزش یک مدل زبانی بزرگ، فرآیندی فوقالعاده پیچیده است که به استراتژیهای خاصی نیاز دارد. یکی از این استراتژیها، موازیسازی سهبعدی است که بار محاسباتی را در سه بُعد مختلف (داده، خط لوله و تنسور) توزیع میکند تا بتوان مدلهای عظیم را روی خوشههای کامپیوتری آموزش داد.
بهینهسازی زِرو (ZeRO) نیز یک روش انقلابی است که با تقسیمبندی حالتهای بهینهساز، گرادیانها و پارامترها، مصرف حافظه را به شدت کاهش میدهد. این تکنیکها در کنار آموزش با دقت ترکیبی که از اعداد ۱۶ بیتی استفاده میکند، سرعت آموزش را به شکل چشمگیری افزایش میدهند.
فرض کنید میخواهید یک مدل با حجم ۱۰۰ میلیارد پارامتر را آموزش دهید. اگر هر پارامتر ۳۲ بیت فضا اشغال کند، به ۴۰۰ گیگابایت حافظه نیاز دارید که یک کامپیوتر معمولی از پس آن برنمیآید. اما با تکنیکهایی مانند آموزش با دقت ترکیبی، این مقدار را به نصف یا کمتر کاهش میدهید، و با موازیسازی میتوانید این بار را بین چندین کامپیوتر تقسیم کنید تا آموزش ممکن شود.
این جزئیات فنی، همان بهظاهر جادوهایی هستند که به غولهای فناوری امکان ساخت مدلهای چند صد میلیارد پارامتری را میدهند.
فرصتی برای آگاهی، ضرورتی برای توانمندی
در نهایت، درک این جزئیات فنی نه تنها یک کنجکاوی علمی نیست، بلکه یک ضرورت برای توانمندی اجتماعی است. شکاف میان مدلهای متنباز و اختصاصی به لطف نوآوریهای سریع در حال کاهش است.
با این حال، آیندهی هوش مصنوعی در دستان کسانی است که قدرت تصمیمگیری در مورد معماری، دادهها و الگوریتمهای آن را دارند. اگر ما، به عنوان کاربران و شهروندان، از این سازوکارهای زیربنایی آگاه باشیم، میتوانیم مطالبه کنیم که این مدلها جانبدارانه نباشند، اطلاعات دقیق ارائه دهند، و به حریم خصوصی ما احترام بگذارند.
این گزارش تنها یک مرور فنی نیست، بلکه یک فراخوان برای آگاهی و مسئولیتپذیری است. تنها با درک این جزئیات است که میتوانیم آیندهای را بسازیم که هوش مصنوعی در آن، ابزاری برای توانمندسازی همگان باشد، نه قدرتی در دستان عدهای محدود.
واژگان تخصصی
پارامتر (Parameter): عددی است که مدل در طول فرآیند آموزش یاد میگیرد. هرچه تعداد پارامترها بیشتر باشد، مدل پیچیدهتر و بالقوه قدرتمندتر است.
اِنکودینگ موقعیتی (Position Embedding): روشی برای کدگذاری موقعیت و ترتیب کلمات در یک جمله، به طوری که مدل بتواند ترتیب آنها را درک کند.
توابع فعالسازی (Activation Function): تابعی که به هر نورون در یک شبکه عصبی اجازه میدهد تا غیرخطی عمل کند، که برای حل مسائل پیچیده ضروری است.
گرادیان (Gradient): شیب یک تابع در یک نقطهی خاص، که جهت حرکت به سمت کمینه شدن خطا را نشان میدهد.
نسخه (BF16): یک فرمت عددی ۱۶ بیتی است که برای آموزش مدلهای بزرگ طراحی شده و کارایی محاسباتی را افزایش میدهد.
تابناک را در شبکه های اجتماعی دنبال کنید