Các mô hình trí tuệ nhân tạo (AI) tạo ảnh đang phát triển với tốc độ chóng mặt, nhưng việc chúng tạo ra những hình ảnh “đáng ngờ” vẫn còn rất phổ biến. Dễ dàng đổ lỗi cho các prompt do con người nhập vào là nguyên nhân gây ra vấn đề này, nhưng liệu có phải vậy? Chúng ta hãy cùng tìm hiểu xem liệu AI có thể hoạt động hiệu quả hơn khi chỉ làm việc với các prompt được tạo ra độc quyền bởi chính AI hay không. Thí nghiệm này sẽ đi sâu vào khả năng diễn giải và sáng tạo của AI, đặc biệt là trong lĩnh vực công nghệ hình ảnh, để cung cấp cái nhìn sâu sắc cho cộng đồng người dùng Việt Nam về những giới hạn và tiềm năng thực sự của các công cụ AI tạo ảnh hiện nay.
Nguyên Tắc Thí Nghiệm: Liệu AI Có Hiểu Prompt Của Đồng Loại?
Khi các mô hình AI tạo ảnh xuất hiện cách đây vài năm, nhiều người đã nghĩ rằng chúng sẽ đặt dấu chấm hết cho những người làm việc với phương tiện hình ảnh. Tuy nhiên, điều này đã không xảy ra. Mặc dù có khả năng tạo ra những bức ảnh siêu thực, nhưng hình ảnh AI thường rơi vào loại khó đoán, đặc biệt nếu bạn yêu cầu điều gì đó phức tạp hơn một chút (ví dụ, AI thường gặp khó khăn với việc tạo ra hình ảnh bàn tay).
Bạn có thể đổ lỗi cho chính các mô hình AI về vấn đề này, hoặc đổ lỗi cho sai lầm của con người và kỹ năng tạo prompt không nhất quán của chúng ta. Cách tự nhiên để kiểm tra xem ai là người đáng trách là xem liệu các mô hình AI tạo ảnh có cho ra kết quả tốt hơn nếu bạn nhập các prompt do AI tạo ra hay không. Để kiểm tra giả thuyết này, chúng tôi sẽ sử dụng Gemini để tạo một loạt prompt, tránh sử dụng tên của đối tượng hoặc bức ảnh mà chúng tôi đang cố gắng tạo. Điều này sẽ giúp kiểm tra xem AI “đọc” hướng dẫn tốt đến mức nào. Dù vẫn có khả năng mô hình sẽ lấy cảm hứng mạnh mẽ từ dữ liệu mà nó đã được huấn luyện (đặc biệt khi tái tạo các bức ảnh hiện có), nhưng chúng ta sẽ chấp nhận điều đó.
Công cụ được lựa chọn để tạo hình ảnh sẽ là Bing Image Creator, vốn được xây dựng trên DALL-E 3. Để thử thách mô hình này, chúng tôi sẽ bắt đầu với các hình dạng đơn giản, sau đó chuyển sang các hình ảnh phức tạp hơn khi thí nghiệm tiến triển. Nếu bạn đã từng sử dụng ChatGPT và các công cụ tương tự, bạn sẽ nhận thấy đôi khi câu trả lời của chúng có thể rất dài dòng, và điều đó cũng không khác gì với các prompt mà mô hình đã đưa ra trong lần thử nghiệm của chúng tôi. Do đó, chúng tôi quyết định giới hạn prompt ở 500 ký tự để giữ tính nhất quán.
AI Xử Lý Các Hình Dạng Đơn Giản Như Thế Nào?
Hãy bắt đầu với một hình vuông đơn giản. Chúng tôi yêu cầu Gemini mô tả một hình vuông mà không nhắc đến tên gọi của nó, và nó đã đưa ra đoạn mô tả sau:
“Một hình có bốn cạnh với tất cả các cạnh có chiều dài bằng nhau. Mỗi góc bên trong có số đo chính xác là 90 độ. Đó là một tứ giác đều với các cạnh đối song song.”
Sau khi nhập mô tả này vào DALL-E, chúng tôi nhận được kết quả:
Hình ảnh một hình vuông do AI tạo ra với nhiều yếu tố hình học
Đúng là một hình vuông, mặc dù có vẻ như nó đã đi quá xa với các yếu tố hình học. Đã đến lúc tăng độ khó, vì vậy chúng tôi yêu cầu AI mô tả chi tiết một hình lập phương.
“Một hình ba chiều có sáu mặt giống hệt nhau. Mỗi mặt là một tứ giác đều với bốn cạnh bằng nhau và bốn góc vuông. Nó có mười hai cạnh có chiều dài bằng nhau và tám đỉnh. Tất cả các góc bên trong hình đều là góc vuông.”
Kết quả thật đáng ngạc nhiên:
Hình ảnh một khối Rubik được AI tạo ra trên nền trắng
Còn nhớ điều chúng tôi đã nói về các mô hình AI khó đoán không? Chà, ở đây, DALL-E đã tạo ra một hình lập phương, nhưng nó hơi “nhầm lẫn” và biến nó thành một khối Rubik. Mặc dù tránh chính xác từ khóa, AI vẫn hiểu sai một phần – có lẽ do sự phổ biến của món đồ chơi trí tuệ này.
Khi AI “Diễn Giải” Nhiếp Ảnh Chân Dung Con Người
Tình huống với khối lập phương cho thấy ngay cả với một mô tả chi tiết, “khách quan”, AI vẫn có thể hiểu sai những hướng dẫn khá trực tiếp. Vậy, hãy xem nó hoạt động tốt đến mức nào với các mô tả do AI tạo ra về những hình ảnh kinh điển, chẳng hạn như bức ảnh “Migrant Mother” của Dorothea Lange. Đây là ảnh gốc:
Bức ảnh mang tính biểu tượng "Người mẹ di cư" của Dorothea Lange mô tả một người mẹ ôm các con trong thời kỳ Đại suy thoái
“Một người phụ nữ, khuôn mặt khắc sâu nỗi lo lắng, nhìn ra ngoài khung hình. Cô ấy được bao quanh bởi những đứa con, khuôn mặt của chúng bị che khuất hoặc quay đi. Bàn tay cô ấy đặt gần mặt, thể hiện sự kiệt sức và lo lắng. Cảnh tượng gợi lên sự nghèo đói và khó khăn. Quần áo của người phụ nữ đã sờn, và bố cục tổng thể u ám, nhấn mạnh gánh nặng hoàn cảnh của cô ấy.”
Đây là cách DALL-E diễn giải bức ảnh nổi tiếng này:
Hình ảnh do AI tạo ra gợi nhớ bức ảnh nổi tiếng "Người mẹ di cư" chụp trong thời kỳ Đại suy thoái
Khá giống! Tuy không hoàn hảo, vì DALL-E rõ ràng đã bỏ qua phần “được bao quanh bởi những đứa con, khuôn mặt của chúng bị che khuất hoặc quay đi” và thay vì “người mẹ” đặt tay gần mặt, một trong những đứa trẻ lại đảm nhận vai trò đó.
Hãy thử một cái gì đó phức tạp hơn. Bạn có lẽ đã từng nhìn thấy bức ảnh mang tính biểu tượng “Lunch atop a Skyscraper” (Bữa trưa trên đỉnh tòa nhà chọc trời):
Bức ảnh đen trắng mang tính biểu tượng mô tả công nhân ngồi trên một dầm thép của tòa nhà chọc trời
“Mười một người đàn ông ngồi trên một dầm thép, lơ lửng trên không trung. Họ ăn trưa, chân buông thõng. Dầm thép được treo lơ lửng phía trên một thành phố rộng lớn. Những người đàn ông trông thư thái, bất chấp độ cao cực lớn. Họ mặc quần áo lao động, và cảnh tượng được chụp từ một góc hơi thấp, nhấn mạnh độ cao.”
Prompt tuyệt vời này đã mang lại kết quả cũng tuyệt vời không kém:
Hình ảnh do AI tạo ra tái hiện bức ảnh nổi tiếng về những người công nhân đang ăn trưa trên dầm thép của tòa nhà chọc trời
Nếu bỏ qua các dấu hiệu kinh điển của một hình ảnh AI (như những chiếc bát giống hệt nhau và các chủ thể bị “copy-paste”), bức ảnh này gần như kỳ lạ về bố cục và tổng thể cảm giác mà nó mang lại. Tuy nhiên, điều này cũng không quá ngạc nhiên – không chỉ bức ảnh này cực kỳ phổ biến, mà nó còn thuộc phạm vi công cộng, vì vậy có lẽ DALL-E đã “tiêu hóa” nội dung của nó trong quá trình huấn luyện.
AI Có Thể Xử Lý Các Bức Ảnh Phức Tạp Hay Không?
Vì đây là “bài kiểm tra” cuối cùng trong thí nghiệm, chúng tôi sẽ không ngần ngại! Mặc dù AI khá tốt với các chủ thể con người, nhưng nó thường gặp khó khăn khi đối mặt với các cảnh phức tạp và “bí ẩn” hơn. Vậy thì, thế còn bức ảnh mang tính biểu tượng “Earthrise” (Trái đất mọc) được chụp từ quỹ đạo mặt trăng trong chuyến bay Apollo 8 thì sao?
Bức ảnh Trái đất được chụp từ quỹ đạo mặt trăng
“Một quả cầu được chiếu sáng một phần lơ lửng trong không gian tối. Một quả cầu nhỏ hơn, có tông màu xám, mọc lên phía trên đường chân trời của nó. Quả cầu lớn hơn hiển thị các mảng màu xanh lam và trắng loang lổ, gợi ý nước và mây. Sự tương phản rõ rệt giữa hai quả cầu và bóng tối nhấn mạnh sự mong manh và cô lập của quả cầu nhỏ hơn đang mọc lên.”
Gemini thực sự đã “đánh rơi quả bóng” (hay nói đúng hơn là quả cầu) với mô tả này. Xem xét mức độ trừu tượng quá cao, chúng tôi đã thêm cụm từ “được chụp từ quỹ đạo mặt trăng gần” vào prompt, nhưng điều đó cũng không giúp ích nhiều:
Hình ảnh do AI tạo ra mô tả mặt trăng ở tiền cảnh và trái đất ở hậu cảnh
Đây là một bìa album progressive rock tuyệt vời, nhưng nó không liên quan gì đến “Earthrise”. Để kết thúc thí nghiệm, chúng tôi đã chọn bức ảnh ít được biết đến nhất từ trước đến nay, kiệt tác công nghiệp “Armco Steel” của Edward Weston:
Hình ảnh đen trắng cho thấy một cảnh công nghiệp với nhiều ống khói
“Một loạt các bể công nghiệp bằng kim loại, hình tròn, lấp đầy khung hình. Các hình dạng của chúng trơn tru và phình ra, tạo ra một mẫu lặp lại. Ánh sáng phản chiếu trên bề mặt, làm nổi bật các hình dạng cong và tạo ra cảm giác về khối lượng. Bố cục nhấn mạnh các phẩm chất trừu tượng của các vật thể công nghiệp, tập trung vào hình dạng và kết cấu hơn là chức năng của chúng. Cảnh tượng trần trụi và tối giản, với sự nhấn mạnh mạnh mẽ vào ánh sáng và bóng tối.”
Có vẻ là một prompt tốt, hãy xem liệu DALL-E có đồng ý không:
Hình ảnh do AI tạo ra mô tả một loạt các hình trụ sáng bóng xếp hàng cạnh nhau, lấp đầy toàn bộ màn hình
Mặc dù chúng tôi đánh giá cao những rung cảm khoa học viễn tưởng, nhưng nó không hề giống với bản gốc. Chúng tôi không muốn kết thúc thí nghiệm với một thất bại thảm hại, vì vậy chúng tôi quyết định “giúp” máy bằng cách thêm thuật ngữ “bức ảnh những năm 1920” vào cuối prompt.
Suy nghĩ của chúng tôi là thuật ngữ cụ thể đó có thể giúp làm rõ bức ảnh mà chúng tôi đang đề cập. Thật không may, AI lại khiến chúng tôi thất vọng một lần nữa và tạo ra một bìa album prog rock khác:
Hình ảnh do AI tạo ra cho thấy các hình trụ lớn được bo tròn ở trên cùng
Kết quả của thí nghiệm này rất thú vị, và kết luận mà chúng ta có thể rút ra là AI tạo ảnh cực kỳ khó đoán, đặc biệt với các khái niệm trừu tượng hơn. Không quan trọng prompt là do AI tạo ra và chính xác, hay do con người tạo ra và không hoàn hảo – kết quả dường như vẫn ngẫu nhiên.
Kết Luận: Vấn Đề Không Nằm Ở Prompt, Mà Ở Bản Chất AI Tạo Ảnh
Thí nghiệm của chúng tôi đã cung cấp một cái nhìn sâu sắc về khả năng và hạn chế của các mô hình AI tạo ảnh như DALL-E 3 khi làm việc với các prompt được chính AI tạo ra. Từ việc xử lý các hình dạng đơn giản đến việc tái hiện các tác phẩm nhiếp ảnh kinh điển và đối mặt với những cảnh phức tạp, kết quả cho thấy một sự thật rõ ràng: AI tạo ảnh vẫn còn rất khó đoán. Ngay cả khi prompt được tối ưu hóa bởi một AI khác, việc hiểu sai hoặc tạo ra kết quả không mong muốn vẫn là điều thường thấy, đặc biệt là với các ý tưởng trừu tượng hoặc ít phổ biến.
Điều này chứng tỏ rằng vấn đề không phải lúc nào cũng nằm ở kỹ năng tạo prompt của con người. Thay vào đó, nó phản ánh bản chất phức tạp và đôi khi “bí ẩn” trong cách các mô hình AI diễn giải và biến đổi thông tin thành hình ảnh. Do đó, lần tới khi bạn cố gắng tự trách mình và kỹ năng tạo prompt của mình, hãy nhớ rằng kết quả có thể sẽ tương tự ngay cả khi đó là hai cỗ máy đang giao tiếp với nhau.
Lời khuyên: Hãy tiếp tục thử nghiệm và sáng tạo với các công cụ AI tạo ảnh, nhưng hãy luôn chuẩn bị tinh thần cho những kết quả bất ngờ. Việc hiểu rõ những giới hạn này sẽ giúp bạn sử dụng AI hiệu quả hơn và đặt kỳ vọng thực tế. Chia sẻ kinh nghiệm của bạn về việc tạo ảnh bằng AI tại mục bình luận dưới đây để cộng đồng thuthuatmeohay.com cùng học hỏi và phát triển!