ChatGPT 4o Tạo Ảnh: So Sánh Khả Năng Vượt Trội Với DALL-E

Table of Contents

OpenAI vừa tung ra bản nâng cấp “khủng” cho khả năng tạo ảnh của ChatGPT, và đây thực sự là một khoảnh khắc khiến bạn phải dụi mắt nhìn lại và tự hỏi liệu đây có phải là thực tế hay không. Thay vì đi sâu vào các con số, kích thước mô hình hay lượng GPU mà mô hình mới tiêu tốn, bài viết này của thuthuatmeohay.com sẽ tập trung vào việc cho bạn thấy những gì công cụ này có thể làm được – và nó vượt trội như thế nào so với mô hình DALL-E cũ. Nếu bạn đã từng thất vọng với những hình ảnh AI bị lỗi ngón tay, văn bản vô nghĩa hay logic không gian phi lý, hãy chuẩn bị tinh thần để chứng kiến bước nhảy vọt đáng kinh ngạc trong công nghệ trí tuệ nhân tạo tạo hình ảnh. Đây không chỉ là một bản cập nhật thông thường; đó là một cuộc cách mạng nhỏ trong thế giới AI tạo sinh.

ChatGPT 4o đã cải thiện khả năng tạo ảnh AI như thế nào?

Kể từ khi công nghệ tạo ảnh bằng trí tuệ nhân tạo trở nên phổ biến, nó đã khiến chúng ta kinh ngạc. Tuy nhiên, khi nhìn kỹ hơn, những nhược điểm cố hữu của các mô hình AI ban đầu bắt đầu lộ rõ. Dấu hiệu điển hình của một hình ảnh do AI tạo ra là cấu trúc bàn tay và ngón tay kỳ lạ, thường bị biến dạng hoặc có số lượng không chính xác. Ngoài ra, việc tái tạo văn bản, chi tiết phức tạp, hay duy trì logic không gian (như trong gương phản chiếu) cũng là những thách thức lớn mà các mô hình cũ như DALL-E thường xuyên gặp phải.

Trong các phần so sánh dưới đây, chúng ta sẽ đặt ChatGPT 4o vào những thử thách khó nhằn nhất, đối chiếu trực tiếp với DALL-E để xem liệu mô hình mới có thực sự khắc phục được những “lời nguyền” lâu nay của AI tạo ảnh và mang đến những hình ảnh chân thực, chính xác và đáng tin cậy hơn hay không.

Điểm So Sánh Chi Tiết Khả Năng Tạo Ảnh Của ChatGPT 4o và DALL-E

Để đánh giá một cách công bằng nhất, chúng tôi đã sử dụng cùng một câu lệnh (prompt) cho cả hai mô hình và so sánh kết quả.

1. Khắc phục “Ác mộng” bàn tay và ngón tay

Bàn tay và ngón tay luôn là điểm yếu chí mạng của AI tạo ảnh. Vậy còn cách nào tốt hơn để kiểm tra các mô hình ngoài việc yêu cầu chúng khắc họa một hợp âm guitar?

Cận cảnh một người đang chơi hợp âm E thứ trên guitar, các ngón tay ấn vào dây đàn với độ sâu trường ảnh nông.

Để dành những gì tốt nhất cho cuối cùng, chúng tôi đã yêu cầu mô hình DALL-E gốc trước, sau đó là trình tạo ảnh mới được tích hợp vào mô hình ChatGPT 4o.

Một cận cảnh bàn tay người đang chơi hợp âm E thứ trên đàn guitar acoustic do DALL-E tạo

Hình trên là kết quả của DALL-E. Mặc dù DALL-E có nhiều hạn chế, nhưng trong trường hợp này, nó thực sự xử lý các ngón tay và cấu trúc chung khá tốt. Nhưng hợp âm thì… không ổn lắm. Bàn tay đặt quá cao trên cần đàn để chơi hợp âm E thứ. Nếu bạn phóng to một chút, bạn sẽ thấy cây đàn guitar có hơn bảy dây, và khoảng cách giữa các dây cũng lộn xộn.

Với điều đó trong tâm trí, hãy cùng xem xét ChatGPT 4o.

Một cận cảnh bàn tay người đang chơi hợp âm E thứ trên đàn guitar acoustic do ChatGPT 4o tạo

Chúng tôi có thể nói đùa rằng đây thực ra là một bức ảnh cũ từ khi chúng tôi còn chơi guitar. ChatGPT 4o chân thực đến mức đó. Sáu dây đàn, khoảng cách đều nhau và hợp âm có thể thực sự là E thứ. Thật ấn tượng! Đây là một điểm cộng lớn cho khả năng tạo ảnh của ChatGPT 4o.

2. Sáng tạo nhân vật lịch sử và hư cấu trong bối cảnh hiện đại

Khi đã vượt qua thử thách bàn tay, hãy thử nghiệm với khuôn mặt. Chúng tôi quyết định thử các nhân vật lịch sử và hư cấu vì họ sẽ không cảm thấy bị xúc phạm, và thật thú vị khi thấy họ trong bối cảnh hiện đại.

Albert Einstein ăn kem ở Central Park, mặc áo sơ mi thường ngày và quần có dây đeo.

Một người đàn ông giống Albert Einstein đang ăn kem ở Central Park do DALL-E tạo

Một sự thất vọng hoàn toàn. Công bằng mà nói, DALL-E đã cảnh báo rằng nó không thể sử dụng chính Einstein và sẽ tạo ra một người “giống gần như”. Một trong những dấu hiệu cổ điển của DALL-E là phong cách vừa hoạt hình vừa chân thực, điều này thể hiện rõ ở đây. Tòa nhà San Remo ở hậu cảnh có gợi ý đây là Central Park, nhưng đó là điểm cộng duy nhất. Chuyển sang ChatGPT 4o.

Một người đàn ông giống Albert Einstein đang ăn kem ở Central Park do ChatGPT 4o tạo

Nếu thêm bộ lọc đen trắng, chúng tôi có thể thuyết phục bạn rằng đây là một bức ảnh cổ điển có thật. Kem trên ốc quế trông rất thật, Albert toát lên vẻ thờ ơ đặc trưng của ông, và San Remo vẫn sừng sững phía sau. Mọi thứ đều khớp. ChatGPT 4o đã làm rất tốt.

Một nhân vật tương tự Chúa tể Sith đang gọi taxi ở Quảng trường George, Glasgow, với mưa nhẹ và đèn giao thông ở hậu cảnh.

Một nhân vật cao lớn, bí ẩn giống Chúa tể Sith đứng ở Quảng trường George, Glasgow do DALL-E tạo

Chúng tôi chọn từ “tương tự” để bot hợp tác mà không bị dính lỗi bản quyền. Kết quả của DALL-E khá ổn. Nhân vật này gợi nhớ đến một Sith, và các yếu tố còn lại tương đối chính xác. Không có gì rõ ràng là hoạt hình, nhưng nó không tạo cảm giác chân thực. Muốn chân thực? Hãy xem ChatGPT 4o đã tạo ra gì với cùng một câu lệnh:

Một nhân vật cao lớn, bí ẩn giống Chúa tể Sith đứng ở Glasgow do ChatGPT 4o tạo

Chúng tôi yêu thích bầu không khí – ánh sáng, mưa phùn, sự hiện diện của chúa tể Sith u ám. Mọi thứ đều có ở đó. Vấn đề duy nhất là chúa tể bóng tối của chúng ta đang đứng trên đường gọi taxi trong khi đối mặt với… vỉa hè. Ồ, và biển hiệu taxi ghi “TAXL”.

Một nhân vật tương tự Geralt of Rivia đang mua sắm tại một siêu thị hiện đại, đẩy xe hàng và cau mày nhìn các lon đồ hộp.

Một người đàn ông tóc trắng, phong trần, có vết sẹo trên mặt, giống thợ săn quái vật giả tưởng, đang mua sắm tại siêu thị hiện đại do DALL-E tạo

Không tệ chút nào. Hình ảnh vẫn mang nét hoạt hình tổng hợp và văn bản trên hộp ngũ cốc hoàn toàn vô nghĩa, đúng như dự kiến.

ChatGPT 4o ban đầu từ chối câu lệnh do vấn đề bản quyền – nhưng nó đã hoạt động khi chúng tôi thay “tương tự” bằng “giống”. Đây là kết quả:

Một người đàn ông tóc trắng, phong trần, có vết sẹo trên mặt, giống thợ săn quái vật giả tưởng, đang mua sắm tại siêu thị hiện đại do ChatGPT 4o tạo

Thật sự không nói nên lời. Giống như hầu hết mọi người, ChatGPT diễn giải Geralt chủ yếu là Henry Cavill, không phải phiên bản trò chơi điện tử – nhưng nó đã làm rất tốt. Vẻ cau có rất đúng, và bối cảnh tạo cảm giác tự nhiên. Bức ảnh này có thể được dùng làm cảnh quay từ một quảng cáo crossover kỳ lạ.

3. Chinh phục phong cách hoạt hình và nền trong suốt

Khả năng tạo ảnh của OpenAI không chỉ giới hạn ở chủ nghĩa hiện thực. Mặc dù DALL-E luôn có xu hướng hơi “phun sơn” bất kể bạn yêu cầu gì, chúng tôi quyết định đẩy cả hai mô hình vào chế độ hoạt hình hoàn chỉnh.

Một thuyền trưởng cướp biển phong cách hoạt hình với áo khoác dài màu đỏ và cánh tay cơ khí, đang cười trên boong tàu bay. Nền trong suốt.

Một thuyền trưởng cướp biển phong cách hoạt hình đứng trên boong tàu bay do DALL-E tạo

DALL-E thực sự đã làm khá tốt ở đây – và nó thậm chí còn hiểu yêu cầu về nền trong suốt. Đại loại vậy. Những gì chúng tôi nhận được là mẫu ô vuông đen trắng cổ điển thường có nghĩa là trong suốt… ngoại trừ ở đây, nó được “nướng” vào hình ảnh. Vì vậy, không trong suốt chút nào. Ngoài ra, trớ trêu thay, bàn tay sinh học của cướp biển AI của chúng ta có bốn ngón trong khi cánh tay cơ khí có năm. Có lẽ anh ta đã “chrome” sai tay?

Một thuyền trưởng cướp biển phong cách hoạt hình đứng trên boong tàu bay do ChatGPT 4o tạo

Phiên bản của ChatGPT 4o tạo cảm giác sắc nét và có chủ đích hơn. Phong cách tô màu khác – dù có tốt hơn hay không là tùy thuộc vào chủ quan – nhưng rõ ràng trông như thể một họa sĩ đã cố tình vẽ theo cách đó. Nền cũng thực sự trong suốt. Bạn có thể in nó lên áo phông, in ra hoặc thậm chí biến nó thành một nhãn dán WhatsApp ngay lập tức.

4. Nắm bắt logic không gian với gương và phản chiếu

Gương phản chiếu – và các phản chiếu cần logic không gian để trông tự nhiên. Chúng tôi đưa ra một câu lệnh mà chúng tôi biết DALL-E sẽ vấp phải.

Một bồn rửa mặt hiện đại với bàn chải đánh răng và dao cạo trên quầy, cả hai đều hiển thị trong gương và ở thế giới thực – ánh sáng dịu và đều.

Một bồn rửa mặt hiện đại với thiết kế thanh lịch và mặt bàn sạch sẽ do DALL-E tạo

Đúng như dự đoán. Có gì đó đang cố gắng làm phản chiếu từ vòi nước trong gương, nhưng nó quá dài. Bàn chải đánh răng đang bay lơ lửng, trong bồn rửa mặt, và không có phản chiếu. DALL-E thực sự đã đội mũ bảo hiểm AI cho cái này.

Một bồn rửa mặt hiện đại với thiết kế thanh lịch và mặt bàn sạch sẽ do ChatGPT 4o tạo

Mô hình mới làm tốt hơn nhiều trong việc làm cho hình ảnh tạo cảm giác chân thực, giống như một bức ảnh thật. Phản chiếu của vòi nước hơi lệch nhưng chấp nhận được. Sau đó là bàn chải đánh răng, có phản chiếu nhưng lại không tồn tại trong thế giới vật lý – giống như một ma cà rồng ngược.

Không có người thắng cuộc rõ ràng ở đây. Kết quả AI vẫn không nhất quán, vì vậy chúng tôi đã cho cả hai một cơ hội khác với một thứ tham vọng hơn một chút:

Một người phụ nữ đứng trước gương toàn thân trong phòng ngủ tràn ngập ánh nắng, trang phục và tư thế của cô ấy được phản chiếu chính xác, với phản chiếu rõ ràng của cửa sổ phía sau cô ấy.

Một người phụ nữ đứng trước gương toàn thân trong phòng ngủ tràn ngập ánh nắng do DALL-E tạo

…Chúng tôi thậm chí không muốn phân tích cái này. Thưa quý vị, nếu bạn muốn làm DALL-E trông tệ, chỉ cần thêm từ “gương” vào câu lệnh của bạn. Chuyển tiếp.

Một người phụ nữ đứng trước gương toàn thân trong phòng ngủ tràn ngập ánh nắng do ChatGPT 4o tạo

Đúng như dự đoán, phiên bản của ChatGPT 4o trông chân thực hơn nhiều – nhưng lần này có lẽ hơi siêu thực? Tư thế và trang phục của người phụ nữ được phản chiếu, nhưng chỉ một phần, giống như hiệu ứng bật ra 3D của Photoshop. Các góc phản chiếu cũng bị sai. AI vẫn chưa thể xử lý logic không gian một cách hoàn hảo.

5. Xe hơi và chi tiết đường phố chân thực

Là một người đam mê xe hơi, khi các trình tạo ảnh AI lần đầu xuất hiện, một trong những điều đầu tiên tôi thử là tạo ảnh ô tô. Kết quả hồi đó không tốt, nhưng với mô hình mới ra mắt, tôi phải thử lại.

Một chiếc Ford GT 2006 và một chiếc Peugeot 206 phía sau đèn giao thông màu đỏ trên Phố Wall, New York, vào giữa trưa.

Một chiếc Ford GT 2006 dừng đèn đỏ cạnh một chiếc Peugeot 206 do DALL-E tạo

DALL-E lại với phong cách hoạt hình ngày càng khó chịu của nó. Chiếc Peugeot nằm trên vỉa hè, đèn giao thông tôi yêu cầu lại quay mặt vào các tòa nhà, và biển số xe đều là những ký tự vô nghĩa.

Một chiếc Ford GT 2006 dừng đèn đỏ cạnh một chiếc Peugeot 206 do ChatGPT 4o tạo

Kết quả của ChatGPT 4o tốt hơn đáng kể. Các xe được mô tả chính xác – thậm chí nắp bánh xe của Peugeot cũng rất đúng chỗ và đúng thời đại. Loại chi tiết đó không phải ngẫu nhiên. Nhưng nó còn tốt hơn nữa:

Một chiếc Ford GT 2006 dừng đèn đỏ cạnh một chiếc Peugeot 206 do ChatGPT 4o tạo

Chúng tôi thực sự có thể sử dụng bức ảnh này làm hình nền điện thoại của mình. Ánh sáng, bố cục, phản chiếu – tất cả đều khớp. Ngoài sự trống trải kỳ lạ của con đường, bức ảnh này có thể hoàn toàn được coi là một bức ảnh thật.

6. Viết văn bản và chữ cái chính xác

Cuối cùng, chúng ta nhắm vào gót chân Achilles của mọi trình tạo ảnh. Hầu hết các AI tạo ảnh đều chật vật với văn bản. Đến giờ, bạn đã thấy đủ những dòng chữ vô nghĩa từ DALL-E trong các ví dụ trước để hiểu ý chúng tôi. Để làm cho nó thú vị hơn – và nhất quán hơn – chúng tôi đã thêm yêu cầu bức thư phải chứa văn bản bài phát biểu của Vua Terenas gửi Arthas trong Warcraft III.

Một bức thư viết tay trên giấy cũ với chữ viết tay nét thảo, đặt cạnh một cây bút máy và một lọ mực.

Cảnh cận cảnh một bức thư viết tay trên giấy da hơi ngả vàng do DALL-E tạo

DALL-E đã làm những gì nó giỏi nhất với văn bản: biến nó thành những dòng chữ nhòe, không thể đọc được. Nó cố gắng viết đúng một số từ, và bầu không khí khá tốt – bút và lọ mực trông ổn.

Cảnh cận cảnh một bức thư viết tay trên giấy da hơi ngả vàng do ChatGPT 4o tạo

ChatGPT 4o đã làm đúng – từng chữ một, với nét chữ viết tay rõ ràng, hoàn hảo. So với DALL-E, đây là một bước tiến vượt bậc. Xin chúc mừng, OpenAI!

Đánh giá Chung về Bước Tiến Của ChatGPT 4o trong Việc Tạo Ảnh AI

Công nghệ tạo ảnh bằng trí tuệ nhân tạo đã đi một chặng đường dài – và điều đó được thể hiện rõ ràng. ChatGPT 4o tạo cảm giác như mô hình đầu tiên thực sự hiểu rõ về ánh sáng, kết cấu và ngữ cảnh. Nó đã khắc phục được nhiều điểm yếu cố hữu của các mô hình trước đây, đặc biệt là các vấn đề về bàn tay, chi tiết nhỏ và khả năng tái tạo văn bản chính xác. Khả năng tạo ra những hình ảnh chân thực đến kinh ngạc, từ gương mặt nhân vật cho đến chi tiết xe hơi, cho thấy tiềm năng ứng dụng rộng lớn của nó trong nhiều lĩnh vực.

Tuy nhiên, vẫn còn những thách thức nhất định. Như đã thấy trong các thử nghiệm về phản chiếu gương, AI vẫn còn đôi chút chật vật với logic không gian phức tạp. Đồng thời, bài viết gốc cũng đặt ra một câu hỏi quan trọng về các biện pháp bảo vệ của ChatGPT: mô hình đã dễ dàng vượt qua các hạn chế về bản quyền trong một số trường hợp. Điều này gợi mở một cuộc tranh luận về thời gian cho đến khi ai đó có thể “bẻ khóa” ChatGPT để tạo ra bất kỳ nội dung nào họ muốn bằng mô hình cực kỳ mạnh mẽ này. Dù vậy, không thể phủ nhận rằng ChatGPT 4o đánh dấu một cột mốc quan trọng trong sự phát triển của AI tạo sinh, mang đến những công cụ mạnh mẽ và đầy hứa hẹn cho người dùng trên toàn thế giới.

Hãy tiếp tục theo dõi thuthuatmeohay.com để cập nhật những thông tin mới nhất về công nghệ AI và chia sẻ trải nghiệm của bạn với ChatGPT 4o trong phần bình luận bên dưới nhé!