Apple MGIE mang đến trải nghiệm mới cho ngành AI
Gã khổng lồ công nghệ đã tiết lộ Apple MGIE, một mô hình AI nguồn mở tiên tiến cho phép chỉnh sửa hình ảnh thông qua các hướng dẫn bằng ngôn ngữ tự nhiên. MGIE, viết tắt của Chỉnh sửa hình ảnh có hướng dẫn MLLM, khai thác sức mạnh của các mô hình ngôn ngữ lớn đa phương thức (MLLM) để diễn giải các lệnh của người dùng và thực hiện các thao tác ở cấp độ pixel với độ chính xác vượt trội.
Advertisement
Mô hình này tự hào có nhiều khả năng chỉnh sửa, bao gồm sửa đổi kiểu Photoshop, tối ưu hóa ảnh toàn cầu và chỉnh sửa cục bộ. Điều này có nghĩa là người dùng có thể dễ dàng cải thiện hình ảnh của mình bằng một lệnh văn bản đơn giản.
Sự phát triển của MGIE là kết quả của sự hợp tác mang tính đột phá giữa Apple và một nhóm các nhà nghiên cứu từ Đại học California, Santa Barbara. Mô hình này đã được trình bày trong một bài nghiên cứu được chấp nhận tại Hội nghị quốc tế về Đại diện học tập (ICLR) 2024 uy tín, một nền tảng hàng đầu cho nghiên cứu AI. Bài viết cho thấy hiệu quả ấn tượng của MGIE trong việc cải thiện các số liệu tự động và đánh giá con người, đồng thời duy trì hiệu quả suy luận cạnh tranh.
Advertisement
Apple MGIE là gì?
Apple MGIE, viết tắt của Multimodal Guided Image Editing là Chỉnh sửa hình ảnh có hướng dẫn đa phương thức, là một hệ thống do Apple phát triển sử dụng máy học để cho phép người dùng chỉnh sửa hình ảnh bằng hướng dẫn ngôn ngữ tự nhiên. Điều này có nghĩa là thay vì phải sử dụng các công cụ hoặc menu chỉnh sửa phức tạp, người dùng chỉ cần mô tả những gì họ muốn làm với hình ảnh và MGIE sẽ tự động thực hiện các thay đổi.
Cũng giống như các công cụ hình ảnh AI tổng hợp khác như Midjourney, StableDiffusion và DALL-E, Apple MGIE thu hẹp khoảng cách giữa ý định của con người và thao tác hình ảnh. Nó tận dụng sức mạnh của việc học đa phương thức, nghĩa là nó hiểu cả thông tin trực quan (hình ảnh) và thông tin văn bản (hướng dẫn của bạn).
Advertisement
Apple MGIE hoạt động như thế nào?
Người dùng có thể nói “Làm cho bầu trời trong hình ảnh này xanh hơn” hoặc “Xóa chiếc ô tô màu đỏ khỏi ảnh này” và MGIE có thể hiểu và thực hiện các hướng dẫn này. MGIE vẫn đang được phát triển nhưng nó có tiềm năng giúp mọi người chỉnh sửa hình ảnh dễ dàng hơn và dễ tiếp cận hơn.
Khái niệm cốt lõi đằng sau quy trình làm việc của Apple MGIE như sau:
- Nhập lệnh của bạn: Bạn mô tả các chỉnh sửa mong muốn của mình bằng tiếng Anh đơn giản, như “Làm cho cây trong ảnh này cao hơn” hoặc “Thay đổi màu của trang phục thành màu xanh lam”
- Hiểu ý định của bạn: Mô hình ngôn ngữ nâng cao của MGIE giải mã các hướng dẫn của bạn, nắm bắt các đối tượng, thuộc tính và sửa đổi cụ thể mà bạn có trong đầu
- Hiểu biết trực quan: đồng thời, MGIE phân tích hình ảnh, xác định các yếu tố chính và mối quan hệ của chúng
- Chỉnh sửa có hướng dẫn: Kết hợp cả hiểu biết về ngôn ngữ và hình ảnh, MGIE xử lý hình ảnh một cách thông minh để phản ánh chính xác các lệnh của bạn. Nó không chỉ làm theo hướng dẫn một cách mù quáng mà còn có thể diễn giải ngữ cảnh và đưa ra những điều chỉnh hợp lý.
Cách sử dụng MGIE
Apple MGIE đã nổi lên như một dự án nguồn mở trên GitHub , cung cấp một cách tiếp cận độc đáo để chỉnh sửa hình ảnh thông qua các lệnh ngôn ngữ tự nhiên. Sự phát triển này cho phép người dùng khám phá và đóng góp trực tiếp cho dự án.
Dự án cung cấp quyền truy cập đầy đủ vào mã nguồn, dữ liệu đào tạo và các mô hình được đào tạo trước trên GitHub. Tính minh bạch này cho phép các nhà phát triển và nhà nghiên cứu hiểu được hoạt động bên trong của nó và có khả năng đóng góp những cải tiến.
Sổ ghi chép demo cũng có sẵn trên GitHub, hướng dẫn người dùng thực hiện các tác vụ chỉnh sửa khác nhau bằng cách sử dụng hướng dẫn bằng ngôn ngữ tự nhiên. Điều này phục vụ như một lời giới thiệu thực tế về khả năng của MGIE.
Người dùng cũng có thể thử nghiệm MGIE thông qua bản demo web được lưu trữ trên Ôm không gian khuôn mặt. Nền tảng trực tuyến này cung cấp một cách nhanh chóng và thuận tiện để dùng thử hệ thống mà không cần thiết lập cục bộ.
Hệ thống hoan nghênh phản hồi của người dùng và cho phép tinh chỉnh các chỉnh sửa hoặc yêu cầu các sửa đổi khác nhau. Cách tiếp cận lặp đi lặp lại này nhằm đảm bảo các chỉnh sửa được tạo phù hợp với tầm nhìn nghệ thuật của người dùng.
Mặc dù nguồn mở làm cho MGIE có thể truy cập được nhưng điều quan trọng cần nhớ là nó vẫn đang được phát triển. Nghiên cứu liên tục và đóng góp của người dùng sẽ định hình các khả năng và ứng dụng tiềm năng trong tương lai của nó.