خبر های ویژه

چرا ساخت هوش مصنوعی بزرگ میلیاردها هزینه دارد - و چگونه استارتاپ چینی دیپ سیک به طور چشمگیری معادلات را تغییر داد

13 بهمن 1403

موفقیت دیپ‌سیک ناشی از سیستم آموزشی بی‌نظیر چین است

10 بهمن 1403

DeepSeek چیست و چرا بخش هوش مصنوعی را مختل می کند؟

10 بهمن 1403

"ما هنوز رئیس هوش مصنوعی هستیم": نکاتی  از سخنرانی آنات بارون در مورد هوش مصنوعی و نوآوری

7 بهمن 1403

کاشت تراشه در مغز برای درمان افسردگی

1 بهمن 1403

عامل هوش مصنوعی چیست؟ یک دانشمند کامپیوتر موج بعدی ابزارهای هوش مصنوعی را توضیح می دهد

28 آذر 1403

استارلینک چینی وارد صحنه اینترنت می شود

26 آذر 1403

آلودگی نوری ، اتلاف انرژی و آسیب به روح و روان و اقلیم

23 آذر 1403

اتصال مستقیم موبایل‌ها به اینترنت ماهواره‌ای

10 آذر 1403

مینی استارلینک

8 آذر 1403

آیا تسلط هوش مصنوعی اجتناب ناپذیر است؟ یک متخصص اخلاق فناوری می گوید نه، در واقع

20 آبان 1403

بتن پوزولانی، راز ایستادگی هزاران ساله سازه‌های شگفت‌انگیز رومیان باستان

11 آبان 1403

چرا بعضی‌ها رنگ‌هایی «نامرئی» را می‌بینند که هیچ کس دیگری نمی‌تواند ببیند؟

1 آبان 1403

از آنجایی که OpenAI میلیاردها سرمایه جدید جذب می کند، هدف آن برای متعادل کردن سود با هدف، چالش برانگیزتر می شود.

23 مهر 1403

مولکول هایی که ژن های ما را کنترل می کنند، برندگان جایزه نوبل پزشکی را مشخص کردند

22 مهر 1403

یادگیری ماشینی مشکل تا شدن پروتئین را حل کرد و جایزه نوبل شیمی 2024 را برد.

19 مهر 1403

13 بهمن 1403

چرا ساخت هوش مصنوعی بزرگ میلیاردها هزینه دارد - و چگونه استارتاپ چینی دیپ سیک به طور چشمگیری معادلات را تغییر داد

آمبوج تیواری استاد آمار، دانشگاه میشیگان

سیستم‌های هوش مصنوعی پیشرفته مانند ChatGPT از OpenAI، Gemini از گوگل و Claude از Anthropic توانسته‌اند توجه عموم را به خود جلب کنند، چراکه می‌توانند متون روان را در زبان‌های مختلف و در پاسخ به درخواست‌های کاربران تولید کنند. این شرکت‌ها همچنین با سرمایه‌گذاری‌های عظیم خود برای توسعه مدل‌های هوش مصنوعی قدرتمندتر، تیتر اخبار را به خود اختصاص داده‌اند. اما استارتاپ چینی DeepSeek همه پیش‌بینی‌ها را در مورد هزینه‌های ساخت جدیدترین و برترین مدل‌های هوش مصنوعی به چالش کشیده است. در این فرآیند، آن‌ها تردیدهایی را در مورد میلیاردها دلار سرمایه‌گذاری انجام‌شده توسط غول‌های هوش مصنوعی ایجاد کرده‌اند. در حوزه یادگیری ماشین. ظهور DeepSeek نه به دلیل یک پیشرفت تکنولوژیکی خیره‌کننده، بلکه به دلیل استفاده از یک اصل سنتی، یعنی یافتن راه‌های بهینه‌تر است. در حوزه‌ای که به منابع عظیم محاسباتی وابسته است، این موضوع بسیار مهم بوده است.

تبریز امروز:

 هوش مصنوعی

سیستم‌های هوش مصنوعی پیشرفته مانند ChatGPT از OpenAI، Gemini از گوگل و Claude از Anthropic توانسته‌اند توجه عموم را به خود جلب کنند، چراکه می‌توانند متون روان را در زبان‌های مختلف و در پاسخ به درخواست‌های کاربران تولید کنند. این شرکت‌ها همچنین با سرمایه‌گذاری‌های عظیم خود برای توسعه مدل‌های هوش مصنوعی قدرتمندتر، تیتر اخبار را به خود اختصاص داده‌اند.

اما استارتاپ چینی DeepSeek همه پیش‌بینی‌ها را در مورد هزینه‌های ساخت جدیدترین و برترین مدل‌های هوش مصنوعی به چالش کشیده است. در این فرآیند، آن‌ها تردیدهایی را در مورد میلیاردها دلار سرمایه‌گذاری انجام‌شده توسط غول‌های هوش مصنوعی ایجاد کرده‌اند.

من در حوزه یادگیری ماشین تحقیق می‌کنم. ظهور DeepSeek نه به دلیل یک پیشرفت تکنولوژیکی خیره‌کننده، بلکه به دلیل استفاده از یک اصل سنتی، یعنی یافتن راه‌های بهینه‌تر است. در حوزه‌ای که به منابع عظیم محاسباتی وابسته است، این موضوع بسیار مهم بوده است.

هزینه‌ها در کجا هستند؟

توسعه چنین سیستم‌های هوش مصنوعی قدرتمندی با ساخت یک مدل زبانی بزرگ (LLM) آغاز می‌شود. این مدل، کلمه بعدی را بر اساس کلمات قبلی پیش‌بینی می‌کند. به‌عنوان مثال، اگر ابتدای جمله‌ای این باشد:
«نظریه نسبیت توسط آلبرت...»
یک مدل زبانی بزرگ ممکن است پیش‌بینی کند که کلمه بعدی «اینشتین» خواهد بود. این مدل‌ها با استفاده از فرآیندی به نام پیش‌آموزش (Pretraining)، در پیش‌بینی بهتر کلمات آموزش داده می‌شوند.

 

 

پیش‌آموزش نیازمند حجم زیادی از داده و قدرت محاسباتی بالایی است. شرکت‌ها این داده‌ها را از طریق خزش در وب و اسکن کردن کتاب‌ها جمع‌آوری می‌کنند. پردازش این داده‌ها معمولاً با استفاده از واحدهای پردازش گرافیکی (GPU) انجام می‌شود. دلیل استفاده از GPU این است که هم گرافیک کامپیوتری و هم شبکه‌های عصبی مصنوعی (که اساس مدل‌های زبانی بزرگ هستند)، بر جبر خطی متکی‌اند.

یک مدل زبانی بزرگ درون خود صدها میلیارد عدد به نام پارامتر یا وزن ذخیره می‌کند. این وزن‌ها در طی فرآیند پیش‌آموزش تغییر می‌کنند.

 

چالش‌های آموزش مدل

یک مدل پیش‌آموزش‌شده به‌تنهایی برای عرضه به کاربران کافی نیست. چنین مدلی معمولاً توانایی کافی در پیروی از دستورات انسانی ندارد و ممکن است با ترجیحات انسانی هماهنگ نباشد. برای مثال، ممکن است زبان مضر یا توهین‌آمیز تولید کند، زیرا چنین داده‌هایی در وب وجود دارند.

بنابراین، مدل‌های هوش مصنوعی پس از پیش‌آموزش، مراحل اضافی آموزش را طی می‌کنند:

  1. تنظیم بر اساس دستورات (Instruction Tuning): در این مرحله، مدل مثال‌هایی از دستورات انسانی و پاسخ‌های مورد انتظار را دریافت می‌کند.
  2. یادگیری تقویتی از بازخورد انسانی (Reinforcement Learning from Human Feedback - RLHF): در این مرحله، حاشیه‌نویسان انسانی چندین پاسخ مختلف مدل را بررسی کرده و پاسخ‌های برتر را انتخاب می‌کنند.

بدیهی است که هزینه‌های ساخت یک مدل هوش مصنوعی از اینجا شروع به افزایش می‌کند:

  • استخدام متخصصان برتر هوش مصنوعی
  • ساخت یک مرکز داده با هزاران GPU
  • جمع‌آوری داده برای پیش‌آموزش
  • انجام فرآیند پیش‌آموزش روی GPUها

همچنین، هزینه‌های اجرای مدل پس از آموزش وجود دارد، زیرا هنگام پاسخ به درخواست‌های کاربران، مدل همچنان به محاسبات اضافی نیاز دارد.

کاهش مصرف منابع

به نظر می‌رسید که تنها راه ساخت مدل‌های برتر، افزایش توان محاسباتی در مراحل آموزش و استنتاج (Inference) است. اما DeepSeek با ورود خود این روند را تغییر داد.

مدل‌های سری V این شرکت، که به مدل V3 منتهی شدند، مجموعه‌ای از بهینه‌سازی‌ها را اجرا کردند تا آموزش مدل‌های پیشرفته هوش مصنوعی بسیار ارزان‌تر شود. طبق گزارش فنی DeepSeek، آن‌ها مدل V3 را با کمتر از ۶ میلیون دلار آموزش دادند!

هرچند این رقم شامل هزینه‌های تیم، تحقیق، آزمایش ایده‌ها و جمع‌آوری داده نیست، اما همچنان بسیار کمتر از هزینه‌های سایر مدل‌های برتر است.

کاهش هزینه‌ها به دلیل یک فناوری انقلابی نبود، بلکه نتیجه چندین تصمیم مهندسی هوشمندانه بود، از جمله:

  • استفاده از بیت‌های کمتر برای نمایش وزن‌های مدل
  • نوآوری در معماری شبکه عصبی
  • کاهش هزینه‌های ارتباطی هنگام پردازش داده‌ها بین GPUها

مقابله با محدودیت‌های سخت‌افزاری

به دلیل محدودیت‌های صادراتی ایالات متحده به چین، تیم DeepSeek به GPUهای پیشرفته‌ای مانند Nvidia H100 دسترسی نداشت. به جای آن، از Nvidia H800 که نسخه ضعیف‌تری از H100 است، استفاده کردند. با این وجود، آن‌ها حتی با این محدودیت‌ها نیز خلاقیت بیشتری به خرج دادند.

همچنین، DeepSeek هزینه‌های استنتاج مدل را کاهش داد. علاوه بر این، آن‌ها مدلی به نام R1 را عرضه کردند که در وظایف استدلالی مانند ریاضیات و برنامه‌نویسی با مدل o1 از OpenAI قابل مقایسه است.

آن‌ها تمام وزن‌های مدل V3 و R1 را به‌صورت عمومی منتشر کردند. هرکسی می‌تواند این مدل‌ها را دانلود کرده و بهبود دهد یا شخصی‌سازی کند. علاوه بر این، DeepSeek مدل‌های خود را تحت مجوز متن‌باز MIT منتشر کرد، که به کاربران اجازه استفاده شخصی، دانشگاهی یا تجاری را با حداقل محدودیت‌ها می‌دهد.

تغییر چشم‌انداز هوش مصنوعی

DeepSeek به‌طور اساسی انتظارات از مدل‌های بزرگ هوش مصنوعی را تغییر داده است.

اکنون، یک مدل متن‌باز با هزینه کم، به اندازه مدل‌های گران‌قیمت و محدود پیشرفته است. این واقعیت، جامعه تحقیقاتی و بازارهای مالی را وادار خواهد کرد تا خود را با این واقعیت جدید وفق دهند.

ارتباط با تبریز امروز

اخبار ، گزارشات ، عکسها و فیلم های خود را برای ما ارسال دارید . برای ارسال میتوانید از طریق آدرس تلگرامی یا ایمیل استفاده کنید.

info@tabriz-emrooz.ir

اشتراک در خبرنامه

برای اطلاع از آخرین خبرهای تبریز امروز در کانال تلگرام ما عضو شوید.

کانل تلگرام تبریز امروز

فرم تماس با تبریز امروز

کلیه حقوق این سایت متعلق به پایگاه خبری تبریز امروز بوده و استفاده از مطالب آن با ذکر منبع بلامانع است.
طراحی وتولید توسططراح وب سایت