معرفی هوش مصنوعی “MGIE” توسط اپل
🧠 MGIE، که مخفف ویرایش تصویری هدایتشده توسط MLLM است، از مدلهای بزرگ زبانی چندرسانهای (MLLMs) برای تفسیر دستورات کاربران و انجام دستکاریهای سطح پیکسل استفاده میکند. این مدل قادر به انجام انواع ویرایشها، مانند تغییرات سبک فتوشاپ، بهینهسازی سرتاسری عکس، و ویرایش محلی است.
🤖 MGIE نتیجه همکاری بین اپل و پژوهشگران سانتا باربارا از دانشگاه کالیفرنیا است. این مدل در کنفرانس بینالمللی یادگیری نمایشها (ICLR) 2024 ارائه شده و کارآمدی خود را در بهبود معیارهای خودکار و ارزیابیهای انسانی نشان داده است.
🎨 چگونه MGIE کار میکند؟
MGIE با استفاده از MLLMs برای بهبود ویرایش تصاویر بر اساس دستورالعملها کار میکند. این مدلها قابلیتهای قابل توجهی در درک متقابل و تولید پاسخهای هوشیمند به تصاویر دارند، اما به طور گسترده در ویرایش تصاویر به کار نرفتهاند.
🛠️ MGIE در دو مرحله MLLMs را در فرآیند ویرایش تصویری دخیل میکند. ابتدا، برای استخراج دستورالعملهای بیانی از ورودیهای کاربر استفاده میکند. سپس، برای تولید تخیل بصری، یک نمایندگی پنهان از ویرایش مطلوب را ایجاد میکند که میتواند برای هدایت دستکاریهای سطح پیکسل استفاده شود.
✂️ قابلیتهای MGIE چیست؟
MGIE قادر به انجام طیف وسیعی از سناریوهای ویرایشی است، از تنظیمات رنگ ساده گرفته تا دستکاریهای پیچیدهی شیء. این مدل همچنین میتواند ویرایشهای جهانی و محلی را بسته به ترجیح کاربر انجام دهد.
🌍 چگونه میتوان از MGIE استفاده کرد؟
MGIE به عنوان یک پروژه منبع باز در GitHub در دسترس است، جایی که کاربران میتوانند کد، دادهها، و مدلهای آموزشدیده را پیدا کنند. پروژه همچنین یک دفترچه راهنما ارائه داده که نشان میدهد چگونه MGIE را برای وظایف ویرایشی مختلف استفاده کنید.
🌟 چرا MGIE مهم است؟
MGIE یک پیشرفت بزرگ در زمینه ویرایش تصویر بر اساس دستورالعمل است و پتانسیل استفاده از MLLMs برای بهبود ویرایش تصاویر را نشان میدهد. این مدل نه تنها یک دستاورد پژوهشی، بلکه ابزاری عملی و مفید برای اهداف مختلف است.