Vào ngày 16 tháng 4 năm 2025, OpenAI đã chính thức giới thiệu hai mô hình lý luận AI hoàn toàn mới: o3 và o4-mini. Sự kiện này đánh dấu một bước tiến nhảy vọt đáng kể trong năng lực trí tuệ nhân tạo của công ty, mà minh chứng rõ ràng nhất chính là khả năng lý luận hình ảnh đột phá của chúng. Các mô hình này không chỉ đơn thuần là công cụ xử lý văn bản, mà còn có thể “suy nghĩ” và tương tác với thông tin hình ảnh một cách sâu sắc, mở ra kỷ nguyên mới cho ChatGPT khả năng suy nghĩ hình ảnh và ứng dụng đa phương thức.
Các Mô Hình Mới Có Thể “Suy Nghĩ” Bằng Hình Ảnh
OpenAI khẳng định rằng các mô hình AI mới OpenAI này có khả năng diễn giải bất kỳ hình ảnh nào mà người dùng tải lên, bao gồm cả phác thảo trên bảng trắng, biểu đồ trong sách giáo khoa hay các tệp PDF chứa đồ họa phức tạp. Theo thông báo phát hành chính thức của OpenAI về o3 và o4-mini, họ không chỉ “thấy” một hình ảnh mà còn có thể “suy nghĩ” với nó. Điều này mở ra một phương thức giải quyết vấn đề hoàn toàn mới, kết hợp lý luận thị giác và văn bản, được thể hiện qua hiệu suất vượt trội của chúng trên các tiêu chuẩn đa phương thức hiện đại.
Trong quá trình xử lý, trí tuệ nhân tạo trong các mô hình này có thể tự động phóng to, xoay hoặc cắt ảnh để cải thiện khả năng xử lý thông tin, và chúng vẫn hoạt động hiệu quả ngay cả với những hình ảnh chất lượng thấp. Ví dụ điển hình là khi giải quyết một vấn đề khoa học liên quan đến biểu đồ, mô hình có thể phóng to vào một phần cụ thể của hình ảnh, thực hiện các phép tính bằng Python và sau đó tạo ra biểu đồ để giải thích kết quả.
o4-mini của ChatGPT giải thích và phân tích nội dung một hình ảnh
Trong quá trình lý luận, o3 và o4-mini có thể linh hoạt sử dụng tất cả các công cụ ChatGPT có sẵn, bao gồm duyệt web, thực thi mã Python và tạo hình ảnh. Khả năng “agentic” này cho phép chúng tự động chọn công cụ ChatGPT lý tưởng cho từng nhiệm vụ cụ thể. Người dùng và nhà phát triển có thể thực hiện các quy trình làm việc đa bước và giải quyết các tác vụ phức tạp.
o4-mini-high là một biến thể của o4-mini, được thiết kế để dành nhiều thời gian và tài nguyên tính toán hơn cho mỗi lời nhắc, nhằm mang lại kết quả chất lượng cao hơn. Một số tình huống ứng dụng hàng ngày của chúng bao gồm:
- Tạo và đánh giá các nghiên cứu trong sinh học, kỹ thuật và các lĩnh vực STEM khác, cung cấp lý luận từng bước chi tiết và giải thích bằng hình ảnh.
- Tìm kiếm và tổng hợp thông tin từ nhiều nguồn như cơ sở dữ liệu trực tuyến, báo cáo tài chính, dữ liệu thị trường và biểu đồ để tạo ra những hiểu biết sâu sắc về kinh doanh.
Các mô hình này đã được huấn luyện thông qua học tăng cường, một khái niệm cốt lõi trong công nghệ AI. Giờ đây, chúng có thể xử lý các vấn đề “mờ” tốt hơn vì chúng có khả năng lý luận để quyết định khi nào nên sử dụng một công cụ cụ thể để đạt được kết quả mong muốn.
Các mô hình o3, o4-mini và o4-mini-high hiện đã có sẵn cho tất cả người dùng có tài khoản ChatGPT Plus, Pro và Team. Người dùng miễn phí có thể trải nghiệm mô hình o4-mini bằng cách chọn tùy chọn “Think” (Suy nghĩ) trong trình soạn thảo trước khi gửi yêu cầu.
Tại Sao Khả Năng Đa Phương Thức Của ChatGPT Lại Đột Phá?
Bằng cách cho phép AI “suy nghĩ với hình ảnh”, các mô hình mới của OpenAI có thể giải quyết các vấn đề thực tế đòi hỏi sự diễn giải cả văn bản và hình ảnh. Điều này bao gồm việc gỡ lỗi mã từ ảnh chụp màn hình, đọc văn bản viết tay, phân tích biểu đồ khoa học hoặc trích xuất thông tin chi tiết từ các biểu đồ phức tạp. Kết quả là ChatGPT đã trở nên nhận thức ngữ cảnh tốt hơn đáng kể.
Các mô hình này giờ đây tự chủ hơn và có thể hiệu quả hơn, tự động điều chỉnh một mô hình cụ thể cho từng nhiệm vụ. Khi các AI agent tự động này có thể xử lý các tác vụ phức tạp, đa bước, khả năng lý luận và trí thông minh thị giác của chúng trở nên cực kỳ quan trọng đối với các lĩnh vực như nghiên cứu, kinh doanh và công việc sáng tạo. Đây là bước tiến quan trọng hướng tới một tương lai nơi ứng dụng AI không chỉ hiểu ngôn ngữ mà còn hiểu thế giới thị giác xung quanh chúng ta.
Sự ra mắt của OpenAI o3 và o4-mini, cùng với khả năng lý luận hình ảnh mạnh mẽ, đã mở ra một kỷ nguyên mới cho trí tuệ nhân tạo. Với khả năng không chỉ xử lý mà còn “suy nghĩ” với hình ảnh, ChatGPT giờ đây có thể giải quyết các vấn đề phức tạp hơn, tự động hơn và nhận thức ngữ cảnh tốt hơn bao giờ hết. Đây là minh chứng cho sự phát triển không ngừng của công nghệ AI và hứa hẹn những ứng dụng đột phá trong nhiều ngành nghề. Hãy cùng thuthuatmeohay.com tiếp tục khám phá và trải nghiệm những tiềm năng vô hạn mà các mô hình AI tiên tiến này mang lại! Đừng ngần ngại chia sẻ những trải nghiệm của bạn khi sử dụng khả năng mới này của ChatGPT trong phần bình luận nhé!