AI TỐT
Chia sẻ kiến thức AI để tốt hơn

Nano Banana Pro vừa khai tử việc huấn luyện mô hình ảnh

6 phút đọc
Jim Clyde Monge
Jim Clyde Monge

Tính nhất quán nhân vật ấn tượng của Nano Banana Pro cho phép bạn nhanh chóng tái tưởng tượng bất kỳ ai chỉ với một ảnh tham chiếu duy nhất.

<center>Ảnh mẫu đa góc nhìn của Nano Banana Pro. Ảnh: Jim Clyde Monge</center>

Khoảng một năm trước, Stability AI và Black Forest Labs đã giới thiệu một quy trình gọi là huấn luyện mô hình ảnh. Về cơ bản, quy trình này cho phép bạn tinh chỉnh một AI để tạo ra hình ảnh của một người cụ thể bằng cách cung cấp cho nó một bộ dữ liệu ảnh của họ. Nó dạy cho mô hình các đặc điểm độc nhất của người đó để có thể tái tạo lại chân dung của họ trong các hình ảnh mới dựa trên prompt của bạn.

Ý tưởng này ngay lập tức trở thành một cú hit, và rất nhiều ứng dụng web huấn luyện mô hình đã được ra mắt nhờ nó. Tôi thực sự đã bị ám ảnh đến mức thậm chí còn phát hành các ứng dụng của riêng mình và viết bài về chúng.

Đây là một trong số đó:

Cách huấn luyện mô hình ảnh Flux AI để tạo ra vô số ảnh của chính bạn

Hôm nay, bạn có thể tinh chỉnh Flux, mô hình ảnh mã nguồn mở mạnh mẽ nhất từ Black Forest Labs, để tạo ra vô số…

generativeai.pub

Tuy nhiên, quy trình này hơi rườm rà. Dữ liệu đầu vào thường yêu cầu một loạt ảnh chân dung được chụp ở nhiều góc độ khác nhau, và bản thân quá trình huấn luyện mất khoảng 15 đến 20 phút để hoàn thành.

Nếu bạn muốn đạt được hình ảnh chất lượng thực sự cao, bạn phải đẩy số lần lặp huấn luyện lên có thể là 1.000, điều này có thể mất khoảng một giờ để hoàn thành. Đây là một ví dụ huấn luyện với 1.000 bước mất 66 phút để hoàn thành.

<center>Huấn luyện mô hình Flux trên Replicate. Ảnh: Jim Clyde Monge</center>

Việc huấn luyện thủ công một mô hình Flux yêu cầu bạn thực hiện các bước sau:

  • Bước 1: Chuẩn bị ảnh huấn luyện
  • Bước 2: Chọn một từ kích hoạt duy nhất
  • Bước 3: Huấn luyện mô hình ảnh
  • Bước 4: Tạo ảnh

Dù vậy, quy trình này đã được cải thiện trong vài tháng tiếp theo bằng cách yêu cầu ít ảnh hơn, nhưng vẫn tốn thời gian.

Nhưng khi Nano Banana Pro ra mắt, bước huấn luyện mô hình ảnh đã trở nên không cần thiết. Bạn chỉ cần tải lên một ảnh tham chiếu, và mô hình đã đủ thông minh để tái tưởng tượng bạn theo một phong cách và góc độ khác.

Tôi biết… tôi biết, các mô hình gần đây đã có khả năng làm điều này. Nhưng tôi đã không tin rằng nó tốt hơn quy trình tinh chỉnh vì kết quả thường kém nhất quán và phong cách trông kỳ quặc. Nhưng với Nano Banana Pro, tôi khá tin rằng việc huấn luyện mô hình đã chết.

Cách sử dụng Nano Banana Pro

Có một vài cách để tạo ảnh với Nano Banana Pro, một trong số đó tôi rất khuyến khích là ứng dụng web invideo. Bạn có thể truy cập một loạt các mô hình hình ảnh và video trong cùng một bảng điều khiển để đạt được cảnh bạn muốn. Ngoài ra, bạn sẽ không bị dính watermark AI ở góc dưới bên phải.

Trong menu thả xuống của mô hình ảnh, chọn mô hình “Nano Banana Pro” dưới tab Image. Tải lên ảnh chân dung tham chiếu, sau đó mô tả hình ảnh đầu ra. Trong ví dụ này, tôi muốn tái tưởng tượng bản thân mình trong một thập kỷ khác từ những năm 1880. Đây là prompt:

Prompt: Make a 3×3 grid starting with the 1880s. In each section, I should appear styled according to that decade (clothing, hairstyle, accessories). Use colors, background, & film style accordingly.

<center>Nano Banana Pro trên invideo. Ảnh: Jim Clyde Monge</center>

Bạn cũng có thể điều chỉnh tỷ lệ khung hình và số lượng ảnh đầu ra cho mỗi lần tạo. Đây là so sánh song song giữa ảnh tham chiếu của tôi và ảnh được tạo bởi Nano Banana Pro.

<center>Ảnh mẫu kết quả với Nano Banana Pro. Ảnh: Jim Clyde Monge</center>

Một điều thú vị khác bạn có thể làm với Nano Banana Pro trong invideo là đẩy độ phân giải hình ảnh lên 4K. Nhấp vào nút gạt cài đặt nhỏ ở phía dưới bên trái của bảng điều khiển và thay đổi giá trị Resolution giữa 1K, 2K và 4K.

<center>Các độ phân giải được Nano Banana Pro hỗ trợ. Ảnh: Jim Clyde Monge</center>

Điều này rất hữu ích nếu bạn đang làm việc với các hình ảnh khổ lớn để in hoặc bố cục lưới mà bạn dự định cắt xén sau này.

Tiếp theo, tôi muốn thử nghiệm một thứ thường làm khó các mô hình ảnh: xoay chủ thể. Việc tạo kiểu cho một bức ảnh chụp chính diện là một chuyện, nhưng việc duy trì sự tương đồng khi xoay đầu sang một bên hoặc hiển thị góc nhìn từ phía sau là một nhiệm vụ khó khăn hơn.

Prompt: Create a 3 column image showing the subject in different angles: front, side, back

<center>Ảnh đầu vào (trái), ảnh đầu ra (phải)</center>

Hoàn hảo! Sự nhất quán về đặc điểm khuôn mặt của cô ấy ở góc nhìn chính diện và góc nghiêng là cực kỳ chính xác. Ngay cả phong cách quần áo vẫn giữ nguyên ở mọi góc độ. Điều tôi thích nhất là cách AI "dự đoán" mặt sau và mặt bên của chiếc áo trông như thế nào chỉ dựa trên góc nhìn giới hạn từ phía trước mà tôi đã cung cấp. Cảm giác hoàn toàn liền mạch.

Nhân tiện, ngay cả bức ảnh tham chiếu cũng được tạo bằng Nano Banana Pro. Thật khó để phát hiện ra rằng tất cả những hình ảnh này đều do AI tạo ra trừ khi bạn thực sự phóng to và săm soi từng pixel.

Các họa sĩ thiết kế nhân vật và nhà làm phim hoạt hình có thể tận dụng tối đa điều này để ngay lập tức hình dung nhân vật của họ ở nhiều góc độ khác nhau cho các bảng tham chiếu. Nó cũng hữu ích cho việc vẽ kịch bản phân cảnh (storyboarding) — nếu bạn muốn một cảnh phim cụ thể được tái tưởng tượng từ một góc máy hoàn toàn khác, điều đó giờ đây có thể thực hiện được trong vài giây.

Nó thậm chí có thể được các nhà thiết kế thời trang sử dụng để hình dung một ý tưởng trang phục trông như thế nào từ phía sau mà không cần phải phác thảo thủ công. Để tôi cho bạn xem một ví dụ:

<center>Ảnh mẫu váy thời trang với Nano Banana Pro. Ảnh: Jim Clyde Monge</center>

Đây là chiếc váy được kết xuất ở các góc độ khác nhau:

<center>Ảnh mẫu váy thời trang với Nano Banana Pro. Ảnh: Jim Clyde Monge</center>

Một lần nữa, kết quả thực sự tốt. Các nhà thiết kế thời trang thực sự cần chú ý đến điều này và xem nó có thể giúp ích cho quy trình làm việc của họ như thế nào.

Nếu tôi cố gắng tinh chỉnh một mô hình với một bức ảnh của chiếc váy này, sẽ mất rất nhiều thời gian, và đầu ra có thể sẽ trông khác đi. Có một lý do rõ ràng tại sao các công ty ngừng đổ nguồn lực vào việc tinh chỉnh và chuyển trọng tâm sang image-to-image.

Lời kết

Tôi đã theo dõi sát sao mọi bản phát hành mô hình ảnh trong vài năm qua, và mọi thứ đang tiến triển nhanh hơn bao giờ hết. Tôi thực sự đã nghĩ rằng việc huấn luyện mô hình sẽ là tiêu chuẩn trong một thời gian dài, nhưng Nano Banana Pro đã chứng minh tôi sai. Nó đã mở ra những trường hợp sử dụng mà tôi thậm chí chưa nghĩ là có thể.

Trong tất cả các khả năng mới, hai điều thực sự thu hút tôi là tính nhất quán của chủ thể và độ chân thực của ảnh. Trước đây, tôi luôn phải thực hiện thêm hai bước xử lý trên các hình ảnh đã tạo của mình: một để sửa độ chân thực và một để nâng cấp độ phân giải. Quy trình làm việc đó về cơ bản đã biến mất. Nano Banana Pro tạo ra hình ảnh lên đến 4K một cách tự nhiên.

Lưu ý rằng Nano Banana Pro còn được trang bị một số tính năng khác như kết xuất văn bản chính xác hơn, nhận thức không gian của hình ảnh tốt hơn và cải thiện khả năng hiểu ngữ cảnh.

Đến thời điểm này, tôi chỉ khuyên bạn nên tự mình trải nghiệm nó. Có thể có rất nhiều cách khác để sử dụng mô hình này mà tôi thậm chí còn chưa khám phá ra.

Theo dõi trên X

Jim Clyde Monge

Bài đăng liên quan