NVIDIA Cosmos là một nền tảng mở để xây dựng Physical AI với các world model đa mô thức, bộ dữ liệu và công cụ, trong đó Cosmos 3 tập trung vào suy luận và sinh nội dung trên văn bản, hình ảnh, video, âm thanh và chuỗi hành động.
Cosmos là nền tảng mở của NVIDIA dành cho Physical AI, hướng tới các nhà phát triển làm việc với robot, xe tự hành, hạ tầng thông minh và các hệ thống liên quan. Trong README, trọng tâm là Cosmos 3, một họ mô hình kết hợp năng lực hiểu và sinh nội dung trên nhiều mô thức, đồng thời tách thành hai bề mặt chạy chính cho suy luận và cho sinh dữ liệu.
Dự án giải quyết nhu cầu về các mô hình và công cụ có thể hiểu môi trường vật lý, dự đoán diễn biến tiếp theo và tạo ra đầu ra đa mô thức chân thực cho các tác vụ như mô phỏng, lập kế hoạch và huấn luyện robot. README mô tả mục tiêu này là hợp nhất các năng lực vốn thường do nhiều hệ thống riêng biệt đảm nhiệm, như mô hình thị giác-ngôn ngữ, bộ tạo video, mô phỏng thế giới và mô hình thế giới-hành động.
Ở mức khái niệm, Cosmos 3 dùng một thiết kế Mixture-of-Transformers thống nhất với hai chế độ. Ở chế độ Reasoner, mô hình xử lý văn bản và hình ảnh để dự đoán token tiếp theo, phục vụ hiểu ngữ cảnh, grounding, lập kế hoạch và dự báo; ở chế độ Generator, mô hình khử nhiễu các token đa mô thức để tạo ảnh, video, âm thanh và đầu ra hành động. README cũng cho biết hai chế độ dùng chung các lớp attention đa mô thức và một biểu diễn rotary position embedding 3D thống nhất để mã hóa cấu trúc không gian và thời gian giữa các mô thức.
Dự án đang được chú ý vì đây là một họ mô hình quy mô lớn, mới được giới thiệu cho Physical AI, đồng thời có các lộ trình rõ ràng cho cả nghiên cứu lẫn triển khai. README nhấn mạnh nhiều cách tích hợp khác nhau — Diffusers và Transformers cho cách dùng ưu tiên Python, cùng vLLM-Omni, vLLM và NIM cho phục vụ suy luận — nên đặc biệt hấp dẫn với những người muốn một nền tảng bao trùm từ hiểu, sinh đến triển khai.
Dựa trên README, các lựa chọn gần nhất không được nêu như đối thủ trực tiếp, nhưng chính Cosmos 3 được đặt ở vị trí hợp nhất các vai trò vốn thường tách rời giữa mô hình thị giác-ngôn ngữ, bộ tạo video, mô phỏng thế giới và mô hình thế giới-hành động. Về lựa chọn tích hợp, README nêu rõ Diffusers, Transformers, vLLM-Omni, vLLM và NIM là các cách dùng mô hình khác nhau, chứ không phải các họ mô hình cạnh tranh.
Do AI giải thích · dựa trên README của từng kho