پشت پرده گفت‌و‌گو‌های ما با چت‌جی‌پی‌تی!

از آنچه می‌پرسید تا آنچه می‌خوانید، دنیایی از پیچیدگی پنهان است که مسیر تفکر شما را شکل می‌دهد.
کد خبر: ۱۳۲۵۸۸۸
| |
510 بازدید
پشت پرده گفت‌و‌گو‌های ما با چت‌جی‌پی‌تی!

شاید فکر کنید استفاده از چت‌بات‌ها یا دستیارهای هوش مصنوعی، صرفاً ابزاری سرگرم‌کننده یا کمکی برای کارهای روزمره است.

به گزارش تابناک به نقل از فارس؛ اما واقعیت این است که هر تعامل ما، هر سؤالی که می‌پرسیم و هر پاسخی که دریافت می‌کنیم، تحت تأثیر معماری‌ها و تصمیمات مهندسی قرار دارد که در نهایت، مسیر پیشرفت اطلاعات، آموزش و حتی نحوه‌ی تفکر ما را شکل می‌دهد. 

آگاهی از این جزئیات فنی و ظریف، به ما قدرت می‌دهد تا از این فناوری‌های شگفت‌انگیز به درستی استفاده کنیم و از آن‌ها مطالبه کنیم که شفاف‌تر، منصف‌تر و دقیق‌تر باشند. با درک این سازوکارها، می‌توانیم به جای تماشاگر بودن، به بازیگری فعال در این عرصه تبدیل شویم و در کنار غول‌های فناوری، آینده‌ای قدرتمند و متوازن را بسازیم.

این گزارش نه تنها به ما می‌گوید که این مدل‌ها چگونه کار می‌کنند، بلکه به ما نشان می‌دهد که چرا آگاهی از این سازوکارها، کلید توانمندسازی ماست.

از واژگان آماری تا مغزهای عصبی

دهه‌ها پیش، تلاش برای درک زبان انسان به مدل‌های زبانی آماری محدود می‌شد. این مدل‌ها که بر اساس تکرار کلمات و احتمال وقوع آن‌ها کار می‌کردند، تنها برای وظایف ساده‌ای مانند پیش‌بینی کلمه‌ی بعدی کافی بودند و در فهم پیچیدگی‌های زبانی کاملاً ناتوان بودند.

اما در اواخر دهه‌ی ۱۹۸۰، با ظهور مدل‌های زبانی عصبی، تحولی بزرگ آغاز شد. این مدل‌ها به جای شمارش کلمات، از شبکه‌های عصبی برای ایجاد نمایش‌های توزیع‌شده و غنی از زبان استفاده کردند، که باعث بهبود چشمگیر درک زبانی شد. این گذار، اولین گام در مسیر ساخت مدل‌های هوشمندی بود که امروز می‌شناسیم و توانستند از محدودیت‌های گذشته عبور کنند.

انقلاب ترنسفورمر، معماری‌ای که در حال تغییرات جهانی است!

نقطه‌ی عطف واقعی در سال ۲۰۱۷ و با انتشار مقاله‌ی سرنوشت‌ساز «اَتنشن همان چیزی است که نیاز دارید» رقم خورد. این مقاله معماری ترنسفورمر را معرفی کرد، که وابستگی‌های بازگشتی سنگین مدل‌های قبلی را حذف و به جای آن از یک مکانیسم جدید به نام «خود-متوجه» استفاده کرد.

این مکانیزم به مدل اجازه می‌دهد تا در یک نگاه، به تمام کلمات یک جمله نگاه کند و ارتباط معنایی آن‌ها را بفهمد، فارغ از اینکه چقدر از هم دور هستند. این نوآوری، زمینه را برای ظهور مدل‌های زبانی از پیش‌آموزش‌دیده مانند بِرت (BERT) و جی‌پی‌تی-۲ فراهم کرد که عملکردی بی‌نظیر داشتند.

اما داستان به همین‌جا ختم نشد. محققان به سرعت دریافتند که با افزایش مقیاس ترنسفورمرها، قابلیت‌های شگفت‌انگیزی از آن‌ها پدیدار می‌شود. در سال ۲۰۲۰، با معرفی جی‌پی‌تی-۳ که ۱۷۵ میلیارد پارامتر داشت، قابلیت‌هایی مانند یادگیری بدون نمونه (zero-shot) و با چند نمونه (few-shot) کشف شد.
این یعنی مدل می‌توانست با دیدن تنها چند مثال یا حتی بدون هیچ مثالی، یک وظیفه جدید را انجام دهد، قابلیتی که تا پیش از آن غیرقابل تصور بود. این موضوع، شروع عصر مدل‌های زبانی بزرگ بود.
بعنوان مثال اگر مدل بخواهد جمله‌ی «کتابی که دیروز خریدم و در آن داستانی جذاب از یک اژدها بود، واقعاً من را جذب کرد» را بفهمد، یک مدل قدیمی باید کلمه به کلمه پیش می‌رفت و ممکن بود ارتباط «آن» را با «کتاب» فراموش کند. اما یک مدل ترنسفورمر به لطف «خود-متوجه»، همزمان به تمام کلمات نگاه کرده و می‌فهمد که «آن» به «کتاب» اشاره دارد، حتی با وجود چندین کلمه فاصله.

رقابت سازنده میان متن‌بازها و غول‌های اختصاصی

امروزه، دو جریان اصلی در دنیای مدل‌های زبانی بزرگ در حال رقابت سازنده هستند. از یک سو، مدل‌های اختصاصی مانند مدل‌های شرکت اوپن‌ای‌آی (OpenAI) و گوگل قرار دارند که وزن‌های آن‌ها محرمانه است و کنترل کامل آن‌ها در دست شرکت‌هاست.

از سوی دیگر، جامعه‌ی متن‌باز با ابتکاراتی مانند مدل لاما (LLaMA) از شرکت متا و نسخه‌های مختلف آن، با قدرت وارد میدان شده‌اند. لاما و پروژه‌هایی مانند ویکونا ثابت کردند که با دسترسی عمومی به وزن‌های مدل و تلاش‌های جامعه‌محور، می‌توان به عملکردی بسیار نزدیک به مدل‌های اختصاصی دست یافت.
مثلاً اگر شما یک پژوهشگر در دانشگاه باشید، دسترسی به یک مدل متن‌باز مانند لاما به شما اجازه می‌دهد تا آن را مطابق نیازهای خود تغییر دهید یا با آن آزمایش‌های جدیدی انجام دهید. اما با یک مدل اختصاصی، شما فقط می‌توانید از آن به عنوان یک ابزار آماده استفاده کنید، بدون اینکه بتوانید به سازوکار درونی آن دسترسی داشته باشید.

این رقابت نه تنها باعث پیشرفت سریع‌تر می‌شود، بلکه به در دسترس قرار گرفتن این فناوری کمک می‌کند و به پژوهشگران و شرکت‌های کوچک‌تر اجازه می‌دهد تا نوآوری کنند.

فراتر از قدرت پردازش: تفاوت‌های ظریف در اجزای مدل

موضوع تنها به تعداد پارامترها و قدرت پردازش محدود نمی‌شود. آنچه که یک مدل را از دیگری متمایز می‌کند، جزئیات ظریف معماری آن است. به عنوان مثال، روش‌های نرمال‌سازی نقش حیاتی در پایدارسازی فرآیند آموزش دارند.

در حالی که مدل‌های قدیمی‌تر مانند جی‌پی‌تی-۳ و برت از نرمال‌سازی لایه‌ای استفاده می‌کنند، خانواده مدل‌های لاما از یک روش کارآمدتر به نام نرمال‌سازی ریشه میانگین مربعات بهره می‌برند که به افزایش سرعت کمک می‌کند.

همچنین، نحوه‌ی کدگذاری اطلاعات ترتیبی در جملات نیز متفاوت است. برخی مدل‌ها از اِمبِدینگ‌های موقعیتی مطلق استفاده می‌کنند، در حالی که مدل‌های پیشرفته‌تر مانند پالم ۲ (PaLM 2) از اِمبِدینگ‌های چرخشی استفاده می‌کنند که در مدیریت دنباله‌های طولانی عملکرد بهتری دارند.

حتی توابع فعال‌سازی که به مدل‌ها قدرت غیرخطی بودن می‌دهند، متفاوت هستند. در حالی که ژلو (GeLU) یک انتخاب رایج است، مدل‌های جدیدتر از نسخه‌های بهبود یافته‌ای مانند سوی‌گلو (SwiGLU) و ژگلو (GeGLU) استفاده می‌کنند که عملکرد بهتری را به نمایش می‌گذارند. این جزئیات کوچک، مانند تنظیم دقیق یک ساعت سوئیسی، در نهایت تفاوت‌های بزرگی در کارایی و دقت مدل ایجاد می‌کنند.

قدرت خام در برابر طراحی بهینه

برای توضیح بهتر و شفاف‌تر تعداد پارامترها را می‌توان به قدرت موتور یک خودروی مسابقه تشبیه کرد؛ هر دو مدل ممکن است ۱۰۰۰ اسب بخار قدرت داشته باشند، اما یکی از آن‌ها به دلیل طراحی بهینه، سریع‌تر و کارآمدتر عمل می‌کند. این تفاوت در عملکرد، به دلیل جزئیات معماری است.

روش‌های نرمال‌سازی مانند سیستم تعلیق خودرو عمل می‌کنند. یک سیستم تعلیق پیشرفته‌تر (مانند نرمال‌سازی ریشه میانگین مربعات) به مدل اجازه می‌دهد در شرایط پیچیده، پایدار بماند و با سرعت بیشتری حرکت کند، در حالی که یک سیستم قدیمی‌تر (مانانرمال‌سازی لایه‌ای) ممکن است دچار لرزش و کندی شود.

کدگذاری موقعیتی مانند سیستم فرمان خودرو عمل می‌کند. یک سیستم فرمان ساده (مانند کدگذاری موقعیتی مطلق) ممکن است در پیچ‌های تند و طولانی به مشکل بر بخورد، اما یک سیستم پیشرفته‌تر (مانند اِمبِدینگ چرخشی) به مدل امکان می‌دهد تا در پیچ‌های پیچیده‌تر و طولانی‌تر نیز با دقت و کارایی بالا حرکت کند.

در نتیجه، یک مدل با تعداد پارامترهای کمتر اما با معماری بهینه، می‌تواند عملکردی بهتر از یک مدل با پارامترهای بیشتر اما با معماری قدیمی‌تر داشته باشد.

خروج از معماری یکپارچه: موج جدید ترکیب متخصصان

یکی از بزرگ‌ترین محدودیت‌های معماری ترنسفورمر سنتی، ساختار یکپارچه‌ی آن است که در آن تمام پارامترها برای پردازش هر توکن فعال می‌شوند. این روش، حتی در مدل‌های عظیم با صدها میلیارد پارامتر، ناکارآمد است.

اما اکنون، یک رویکرد جدید به نام ترکیب متخصصان در حال اوج‌گیری است. در این معماری، مدل به چندین «شبکه متخصص» تقسیم می‌شود. هنگامی که یک توکن ورودی وارد می‌شود، یک مسیریاب هوشمندانه تنها دو یا چند شبکه متخصص مرتبط را برای پردازش آن توکن انتخاب می‌کند.

مدل میکسترال ۸x۷بی (Mixtral 8x7B) که وزن‌های آن متن‌باز است و دیپ‌سیک-ورژن۳ با ۶۷۱ میلیارد پارامتر که تنها ۳۷ میلیارد پارامتر آن برای هر توکن فعال می‌شود، نمونه‌هایی از قدرت این معماری هستند.
این رویکرد به مدل‌ها اجازه می‌دهد تا با تعداد پارامترهای بسیار زیاد و در عین حال با هزینه‌ی محاسباتی به مراتب کمتر، به عملکردی فوق‌العاده دست یابند. این به معنی دسترسی به مدل‌های بسیار بزرگ و کارآمدتر برای طیف وسیع‌تری از کاربران و پژوهشگران است.

بعنوان مثال تصور کنید یک مدل ترکیب متخصصان می‌خواهد به سؤال چگونه یک برنامه‌ی به زبان پایتون بنویسم؟ پاسخ دهد. به جای فعال کردن تمام بخش‌های مدل، مسیریاب هوشمند آن تنها بخش‌های مربوط به برنامه‌نویسی و پایتون را فعال می‌کند. این کار مانند این است که به جای مشورت با تمام کارمندان یک شرکت بزرگ، فقط از متخصصان همان حوزه کمک بگیریم که باعث صرفه‌جویی عظیم در زمان و منابع می‌شود.

دنیای پنهان بهینه‌سازی: جادوهای پشت پرده

آموزش یک مدل زبانی بزرگ، فرآیندی فوق‌العاده پیچیده است که به استراتژی‌های خاصی نیاز دارد. یکی از این استراتژی‌ها، موازی‌سازی سه‌بعدی است که بار محاسباتی را در سه بُعد مختلف (داده، خط لوله و تنسور) توزیع می‌کند تا بتوان مدل‌های عظیم را روی خوشه‌های کامپیوتری آموزش داد.

بهینه‌سازی زِرو (ZeRO) نیز یک روش انقلابی است که با تقسیم‌بندی حالت‌های بهینه‌ساز، گرادیان‌ها و پارامترها، مصرف حافظه را به شدت کاهش می‌دهد. این تکنیک‌ها در کنار آموزش با دقت ترکیبی که از اعداد ۱۶ بیتی استفاده می‌کند، سرعت آموزش را به شکل چشمگیری افزایش می‌دهند.

 فرض کنید می‌خواهید یک مدل با حجم ۱۰۰ میلیارد پارامتر را آموزش دهید. اگر هر پارامتر ۳۲ بیت فضا اشغال کند، به ۴۰۰ گیگابایت حافظه نیاز دارید که یک کامپیوتر معمولی از پس آن برنمی‌آید. اما با تکنیک‌هایی مانند آموزش با دقت ترکیبی، این مقدار را به نصف یا کمتر کاهش می‌دهید، و با موازی‌سازی می‌توانید این بار را بین چندین کامپیوتر تقسیم کنید تا آموزش ممکن شود.

این جزئیات فنی، همان به‌ظاهر جادوهایی هستند که به غول‌های فناوری امکان ساخت مدل‌های چند صد میلیارد پارامتری را می‌دهند.

فرصتی برای آگاهی، ضرورتی برای توانمندی

در نهایت، درک این جزئیات فنی نه تنها یک کنجکاوی علمی نیست، بلکه یک ضرورت برای توانمندی اجتماعی است. شکاف میان مدل‌های متن‌باز و اختصاصی به لطف نوآوری‌های سریع در حال کاهش است.
با این حال، آینده‌ی هوش مصنوعی در دستان کسانی است که قدرت تصمیم‌گیری در مورد معماری، داده‌ها و الگوریتم‌های آن را دارند. اگر ما، به عنوان کاربران و شهروندان، از این سازوکارهای زیربنایی آگاه باشیم، می‌توانیم مطالبه کنیم که این مدل‌ها جانبدارانه نباشند، اطلاعات دقیق ارائه دهند، و به حریم خصوصی ما احترام بگذارند.

این گزارش تنها یک مرور فنی نیست، بلکه یک فراخوان برای آگاهی و مسئولیت‌پذیری است. تنها با درک این جزئیات است که می‌توانیم آینده‌ای را بسازیم که هوش مصنوعی در آن، ابزاری برای توانمندسازی همگان باشد، نه قدرتی در دستان عده‌ای محدود.

واژگان تخصصی

پارامتر (Parameter): عددی است که مدل در طول فرآیند آموزش یاد می‌گیرد. هرچه تعداد پارامترها بیشتر باشد، مدل پیچیده‌تر و بالقوه قدرتمندتر است.

اِنکودینگ موقعیتی (Position Embedding): روشی برای کدگذاری موقعیت و ترتیب کلمات در یک جمله، به طوری که مدل بتواند ترتیب آن‌ها را درک کند.

توابع فعال‌سازی (Activation Function): تابعی که به هر نورون در یک شبکه عصبی اجازه می‌دهد تا غیرخطی عمل کند، که برای حل مسائل پیچیده ضروری است.

گرادیان (Gradient): شیب یک تابع در یک نقطه‌ی خاص، که جهت حرکت به سمت کمینه شدن خطا را نشان می‌دهد.

نسخه (BF16): یک فرمت عددی ۱۶ بیتی است که برای آموزش مدل‌های بزرگ طراحی شده و کارایی محاسباتی را افزایش می‌دهد.

اشتراک گذاری
برچسب ها
سلام پرواز
سفرمارکت
مطالب مرتبط
برچسب منتخب
# مرگ ترامپ # مکانیسم ماشه # جنگ ایران و اسرائیل # عملیات وعده صادق 3 # مذاکره ایران و آمریکا # آژانس بین المللی انرژی اتمی # پل ترامپ # حمله آمریکا به ایران
نظرسنجی
آیا از ابزارهای هوش مصنوعی استفاده می کنید؟
نظرسنجی
ایران و آمریکا در مذاکرات به توافق می‌رسند؟
الی گشت