Новая модель Apple AI редактирует изображения на основе ввода на естественном языке

Исследователи Apple выпущенный новая модель искусственного интеллекта с открытым исходным кодом, которая способна редактировать изображения на основе инструкций пользователя на естественном языке (через ВенчурБит).

  Мы в Telegram

DALL%C2%B7E редактирование изображений логотипа Apple AI

Изображение Fanoftech, сделанное с помощью DALL·E

Названный «MGIE», что означает MLLM-Guided Image Editing, он использует мультимодальные модели большого языка (MLLM) для интерпретации пользовательских запросов и выполнения манипуляций на уровне пикселей.


Модель способна редактировать различные аспекты изображений. Глобальные улучшения фотографий могут включать яркость, контрастность или резкость, а также применение художественных эффектов, таких как создание эскизов. Локальное редактирование может изменить форму, размер, цвет или текстуру определенных областей или объектов изображения, а модификации в стиле Photoshop могут включать обрезку, изменение размера, поворот и добавление фильтров или даже изменение фона и смешивание изображений.

Пользовательский запрос на фотографию пиццы может заключаться в том, чтобы «сделать ее более здоровой». Используя здравый смысл, модель может добавлять овощные начинки, например помидоры и зелень. Запрос на глобальную оптимизацию может принимать форму «добавить контраст, чтобы имитировать больше света», а модификацию в стиле Photoshop можно внести, попросив модель удалить людей с фона фотографии, переместив фокус изображения на задний план. выражение лица субъекта.

Apple в сотрудничестве с исследователями Калифорнийского университета разработала MGIE, который был представлен в бумага на Международной конференции по обучающим представлениям (ICLR) 2024. Модель доступна на GitHub и включает в себя код, данные и предварительно обученные модели.

Редактирование изображений модели Apple AI MGIE
Это второй прорыв Apple в исследованиях искусственного интеллекта за последние несколько месяцев. В конце декабря Apple сообщила, что добилась успехов в развертывании больших языковых моделей (LLM) на iPhone и других устройствах Apple с ограниченной памятью, изобретая инновационную технику использования флэш-памяти.


В течение последних нескольких месяцев Apple тестировала конкурента Apple GPT, который мог бы конкурировать с ChatGPT. В соответствии с БлумбергМарк Гурман, работа над искусственным интеллектом является приоритетом для Apple, поскольку компания разрабатывает структуру «Ajax» для больших языковых моделей.

Оба Информация и аналитик Джефф Пу утверждают, что Apple будет иметь какую-то функцию генеративного искусственного интеллекта, доступную на iPhone и iPad примерно в конце 2024 года, когда выйдет iOS 18. По словам Гурмана, iOS 18 включает в себя расширенную версию Siri с функцией генеративного искусственного интеллекта, подобной ChatGPT, и потенциально может стать «крупнейшим» обновлением программного обеспечения в истории iPhone.


Нажмите здесь, чтобы узнать больше новостей


Leave a Comment

Your email address will not be published. Required fields are marked *