اپل از یک مدل هوش مصنوعی آزمایشی و انقلابی به نام SHARP رونمایی کرده است که میتواند یک صحنه سهبعدی فوتورئالیستی را از یک تصویر تکی در کمتر از یک ثانیه بازسازی کند. این فناوری پتانسیل ایجاد تحولی بزرگ در نحوه تعامل ما با تصاویر دیجیتال را دارد.
اپل مطالعهای را با عنوان «سنتز نمای تکچشمی شارپ در کمتر از یک ثانیه» منتشر کرده و در آن جزئیات آموزش مدلی را شرح داده است که میتواند یک صحنه سهبعدی را از یک تصویر دوبعدی بازسازی کند و درعینحال، فواصل و مقیاس را در ابعاد دنیای واقعی ثابت نگه دارد.
بهطور خلاصه، این مدل یک نمایش گوسی سهبعدی (3D Gaussian representation) از صحنه را پیشبینی میکند که سپس میتوان از دیدگاههای نزدیک آن را رندر کرد. یک «گوسین سهبعدی» اساساً یک لکه کوچک و محو از رنگ و نور است که در فضا قرار گرفته است. وقتی میلیونها عدد از این لکهها با هم ترکیب شوند، میتوانند یک صحنه سهبعدی را بازسازی کنند که از آن زاویه دید خاص، دقیق بهنظر میرسد.
برای ایجاد چنین نمایش سهبعدیای، اکثر رویکردهای مبتنیبر پراکندگی گوسی (Gaussian Splatting) به دهها یا حتی صدها تصویر از یک صحنه که از زوایای مختلف گرفته شدهاند، نیاز دارند. در مقابل، مدل SHARP اپل قادر است یک نمایش کامل از صحنه گوسی سهبعدی را تنها از یک عکس و در یک پاس روبهجلو (forward pass) از یک شبکه عصبی پیشبینی کند.
برای دستیابی به این هدف، اپل مدل SHARP را بر روی حجم عظیمی از دادههای ترکیبی و واقعی آموزش داده تا بتواند الگوهای مشترک عمق و هندسه را در صحنههای مختلف بیاموزد. در نتیجه، این مدل هزاران برابر سریعتر از بهترین مدلهای قبلی مانند Gen3C عمل میکند و خطای کمتری نیز دارد.
بااینحال، یک مصالحه وجود دارد. SHARP بهجای سنتز کردن بخشهای کاملاً دیدهنشده از صحنه، دیدگاههای نزدیک را با دقت رندر میکند. این بدان معناست که کاربران نمیتوانند خیلی از زاویه دیدی که عکس از آن گرفته شده است، دور شوند، زیرا مدل بخشهای کاملاً جدید را «خلق» نمیکند.
این رویکرد به اپل اجازه میدهد تا مدل را بهاندازهای سریع نگه دارد که نتیجه را در کمتر از یک ثانیه تولید کند و همچنین بهاندازهای پایدار باشد که نتیجهای باورپذیرتر ایجاد نماید.
شاید جالبتر از اعتماد به حرف اپل، امتحان کردن این فناوری توسط خودتان باشد. در همین راستا، اپل مدل SHARP را در گیتهاب (GitHub) در دسترس قرار داده است و کاربران در حال به اشتراک گذاشتن نتایج آزمایشهای خود با آن هستند.
بهنظر شما این فناوری چه کاربردهای هیجانانگیزی میتواند در آینده در محصولاتی مانند ویژن پرو داشته باشد؟