13 بهمن 1403
سیستمهای هوش مصنوعی پیشرفته مانند ChatGPT از OpenAI، Gemini از گوگل و Claude از Anthropic توانستهاند توجه عموم را به خود جلب کنند، چراکه میتوانند متون روان را در زبانهای مختلف و در پاسخ به درخواستهای کاربران تولید کنند. این شرکتها همچنین با سرمایهگذاریهای عظیم خود برای توسعه مدلهای هوش مصنوعی قدرتمندتر، تیتر اخبار را به خود اختصاص دادهاند. اما استارتاپ چینی DeepSeek همه پیشبینیها را در مورد هزینههای ساخت جدیدترین و برترین مدلهای هوش مصنوعی به چالش کشیده است. در این فرآیند، آنها تردیدهایی را در مورد میلیاردها دلار سرمایهگذاری انجامشده توسط غولهای هوش مصنوعی ایجاد کردهاند. در حوزه یادگیری ماشین. ظهور DeepSeek نه به دلیل یک پیشرفت تکنولوژیکی خیرهکننده، بلکه به دلیل استفاده از یک اصل سنتی، یعنی یافتن راههای بهینهتر است. در حوزهای که به منابع عظیم محاسباتی وابسته است، این موضوع بسیار مهم بوده است.
تبریز امروز:
سیستمهای هوش مصنوعی پیشرفته مانند ChatGPT از OpenAI، Gemini از گوگل و Claude از Anthropic توانستهاند توجه عموم را به خود جلب کنند، چراکه میتوانند متون روان را در زبانهای مختلف و در پاسخ به درخواستهای کاربران تولید کنند. این شرکتها همچنین با سرمایهگذاریهای عظیم خود برای توسعه مدلهای هوش مصنوعی قدرتمندتر، تیتر اخبار را به خود اختصاص دادهاند.
اما استارتاپ چینی DeepSeek همه پیشبینیها را در مورد هزینههای ساخت جدیدترین و برترین مدلهای هوش مصنوعی به چالش کشیده است. در این فرآیند، آنها تردیدهایی را در مورد میلیاردها دلار سرمایهگذاری انجامشده توسط غولهای هوش مصنوعی ایجاد کردهاند.
من در حوزه یادگیری ماشین تحقیق میکنم. ظهور DeepSeek نه به دلیل یک پیشرفت تکنولوژیکی خیرهکننده، بلکه به دلیل استفاده از یک اصل سنتی، یعنی یافتن راههای بهینهتر است. در حوزهای که به منابع عظیم محاسباتی وابسته است، این موضوع بسیار مهم بوده است.
توسعه چنین سیستمهای هوش مصنوعی قدرتمندی با ساخت یک مدل زبانی بزرگ (LLM) آغاز میشود. این مدل، کلمه بعدی را بر اساس کلمات قبلی پیشبینی میکند. بهعنوان مثال، اگر ابتدای جملهای این باشد:
«نظریه نسبیت توسط آلبرت...»
یک مدل زبانی بزرگ ممکن است پیشبینی کند که کلمه بعدی «اینشتین» خواهد بود. این مدلها با استفاده از فرآیندی به نام پیشآموزش (Pretraining)، در پیشبینی بهتر کلمات آموزش داده میشوند.
پیشآموزش نیازمند حجم زیادی از داده و قدرت محاسباتی بالایی است. شرکتها این دادهها را از طریق خزش در وب و اسکن کردن کتابها جمعآوری میکنند. پردازش این دادهها معمولاً با استفاده از واحدهای پردازش گرافیکی (GPU) انجام میشود. دلیل استفاده از GPU این است که هم گرافیک کامپیوتری و هم شبکههای عصبی مصنوعی (که اساس مدلهای زبانی بزرگ هستند)، بر جبر خطی متکیاند.
یک مدل زبانی بزرگ درون خود صدها میلیارد عدد به نام پارامتر یا وزن ذخیره میکند. این وزنها در طی فرآیند پیشآموزش تغییر میکنند.
یک مدل پیشآموزششده بهتنهایی برای عرضه به کاربران کافی نیست. چنین مدلی معمولاً توانایی کافی در پیروی از دستورات انسانی ندارد و ممکن است با ترجیحات انسانی هماهنگ نباشد. برای مثال، ممکن است زبان مضر یا توهینآمیز تولید کند، زیرا چنین دادههایی در وب وجود دارند.
بنابراین، مدلهای هوش مصنوعی پس از پیشآموزش، مراحل اضافی آموزش را طی میکنند:
بدیهی است که هزینههای ساخت یک مدل هوش مصنوعی از اینجا شروع به افزایش میکند:
همچنین، هزینههای اجرای مدل پس از آموزش وجود دارد، زیرا هنگام پاسخ به درخواستهای کاربران، مدل همچنان به محاسبات اضافی نیاز دارد.
به نظر میرسید که تنها راه ساخت مدلهای برتر، افزایش توان محاسباتی در مراحل آموزش و استنتاج (Inference) است. اما DeepSeek با ورود خود این روند را تغییر داد.
مدلهای سری V این شرکت، که به مدل V3 منتهی شدند، مجموعهای از بهینهسازیها را اجرا کردند تا آموزش مدلهای پیشرفته هوش مصنوعی بسیار ارزانتر شود. طبق گزارش فنی DeepSeek، آنها مدل V3 را با کمتر از ۶ میلیون دلار آموزش دادند!
هرچند این رقم شامل هزینههای تیم، تحقیق، آزمایش ایدهها و جمعآوری داده نیست، اما همچنان بسیار کمتر از هزینههای سایر مدلهای برتر است.
کاهش هزینهها به دلیل یک فناوری انقلابی نبود، بلکه نتیجه چندین تصمیم مهندسی هوشمندانه بود، از جمله:
به دلیل محدودیتهای صادراتی ایالات متحده به چین، تیم DeepSeek به GPUهای پیشرفتهای مانند Nvidia H100 دسترسی نداشت. به جای آن، از Nvidia H800 که نسخه ضعیفتری از H100 است، استفاده کردند. با این وجود، آنها حتی با این محدودیتها نیز خلاقیت بیشتری به خرج دادند.
همچنین، DeepSeek هزینههای استنتاج مدل را کاهش داد. علاوه بر این، آنها مدلی به نام R1 را عرضه کردند که در وظایف استدلالی مانند ریاضیات و برنامهنویسی با مدل o1 از OpenAI قابل مقایسه است.
آنها تمام وزنهای مدل V3 و R1 را بهصورت عمومی منتشر کردند. هرکسی میتواند این مدلها را دانلود کرده و بهبود دهد یا شخصیسازی کند. علاوه بر این، DeepSeek مدلهای خود را تحت مجوز متنباز MIT منتشر کرد، که به کاربران اجازه استفاده شخصی، دانشگاهی یا تجاری را با حداقل محدودیتها میدهد.
DeepSeek بهطور اساسی انتظارات از مدلهای بزرگ هوش مصنوعی را تغییر داده است.
اکنون، یک مدل متنباز با هزینه کم، به اندازه مدلهای گرانقیمت و محدود پیشرفته است. این واقعیت، جامعه تحقیقاتی و بازارهای مالی را وادار خواهد کرد تا خود را با این واقعیت جدید وفق دهند.
اخبار ، گزارشات ، عکسها و فیلم های خود را برای ما ارسال دارید . برای ارسال میتوانید از طریق آدرس تلگرامی یا ایمیل استفاده کنید.