#
اخبار اپل

معرفی هوش مصنوعی “MGIE” توسط اپل

🧠 MGIE، که مخفف ویرایش تصویری هدایت‌شده توسط MLLM است، از مدل‌های بزرگ زبانی چندرسانه‌ای (MLLMs) برای تفسیر دستورات کاربران و انجام دستکاری‌های سطح پیکسل استفاده می‌کند. این مدل قادر به انجام انواع ویرایش‌ها، مانند تغییرات سبک فتوشاپ، بهینه‌سازی سرتاسری عکس، و ویرایش محلی است.

🤖 MGIE نتیجه همکاری بین اپل و پژوهشگران سانتا باربارا از دانشگاه کالیفرنیا است. این مدل در کنفرانس بین‌المللی یادگیری نمایش‌ها (ICLR) 2024 ارائه شده و کارآمدی خود را در بهبود معیارهای خودکار و ارزیابی‌های انسانی نشان داده است.

🎨 چگونه MGIE کار می‌کند؟

MGIE با استفاده از MLLMs برای بهبود ویرایش تصاویر بر اساس دستورالعمل‌ها کار می‌کند. این مدل‌ها قابلیت‌های قابل توجهی در درک متقابل و تولید پاسخ‌های هوشیمند به تصاویر دارند، اما به طور گسترده در ویرایش تصاویر به کار نرفته‌اند.

🛠️ MGIE در دو مرحله MLLMs را در فرآیند ویرایش تصویری دخیل می‌کند. ابتدا، برای استخراج دستورالعمل‌های بیانی از ورودی‌های کاربر استفاده می‌کند. سپس، برای تولید تخیل بصری، یک نمایندگی پنهان از ویرایش مطلوب را ایجاد می‌کند که می‌تواند برای هدایت دستکاری‌های سطح پیکسل استفاده شود.

✂️ قابلیت‌های MGIE چیست؟

MGIE قادر به انجام طیف وسیعی از سناریوهای ویرایشی است، از تنظیمات رنگ ساده گرفته تا دستکاری‌های پیچیده‌ی شیء. این مدل همچنین می‌تواند ویرایش‌های جهانی و محلی را بسته به ترجیح کاربر انجام دهد.

🌍 چگونه می‌توان از MGIE استفاده کرد؟

MGIE به عنوان یک پروژه منبع باز در GitHub در دسترس است، جایی که کاربران می‌توانند کد، داده‌ها، و مدل‌های آموزش‌دیده را پیدا کنند. پروژه همچنین یک دفترچه راهنما ارائه داده که نشان می‌دهد چگونه MGIE را برای وظایف ویرایشی مختلف استفاده کنید.

🌟 چرا MGIE مهم است؟

MGIE یک پیشرفت بزرگ در زمینه ویرایش تصویر بر اساس دستورالعمل است و پتانسیل استفاده از MLLMs برای بهبود ویرایش تصاویر را نشان می‌دهد. این مدل نه تنها یک دستاورد پژوهشی، بلکه ابزاری عملی و مفید برای اهداف مختلف است.

نظر شما چیست؟

دکمه بازگشت به بالا