Mô hình V-JEPA 2 của Meta giúp AI hiểu rõ môi trường xung quanh

Vào thứ Tư, Meta đã công bố mô hình AI mới mang tên V-JEPA 2, một “world model” được thiết kế để hỗ trợ các tác nhân AI nhận thức và hiểu về thế giới xung quanh.

V-JEPA 2: Bước tiến trong việc nhận thức thế giới vật lý

V-JEPA 2 là phiên bản cải tiến của mô hình V-JEPA mà Meta giới thiệu vào năm ngoái, được huấn luyện trên hơn 1 triệu giờ video. Dữ liệu huấn luyện này nhằm giúp các robot hoặc tác nhân AI khác vận hành trong thế giới thực, hiểu và dự đoán cách các khái niệm như trọng lực ảnh hưởng đến các sự kiện tiếp theo trong một chuỗi hành động.

Đây là những kết nối mang tính “thường thức” mà trẻ nhỏ hoặc động vật hình thành khi não bộ phát triển. Ví dụ, khi chơi ném bóng với một chú chó, chú chó (hy vọng) sẽ hiểu rằng quả bóng nảy trên mặt đất sẽ bật lên, hoặc nó sẽ chạy đến vị trí dự đoán quả bóng sẽ đáp xuống, thay vì chạy đến nơi quả bóng đang ở tại thời điểm đó.

Meta đưa ra ví dụ về một robot có góc nhìn từ việc cầm đĩa và thìa, tiến đến bếp với trứng đã nấu chín. AI có thể dự đoán hành động tiếp theo có khả năng cao là sử dụng thìa để chuyển trứng sang đĩa.

Hiệu suất vượt trội và ứng dụng thực tiễn

Theo Meta, V-JEPA 2 nhanh hơn 30 lần so với mô hình Cosmos của Nvidia, một mô hình khác cũng tập trung nâng cao trí thông minh liên quan đến thế giới vật lý. Tuy nhiên, Meta có thể đang sử dụng các tiêu chí đánh giá khác so với Nvidia.

Yann LeCun, nhà khoa học trưởng về AI của Meta, chia sẻ trong một video: “Chúng tôi tin rằng các world model sẽ mở ra một kỷ nguyên mới cho robot, cho phép các tác nhân AI thực hiện các công việc nhà và nhiệm vụ vật lý mà không cần lượng dữ liệu huấn luyện robot khổng lồ.”

Mô hình V-JEPA 2 không chỉ giúp AI hiểu rõ hơn về môi trường xung quanh mà còn giảm thiểu nhu cầu dữ liệu huấn luyện, mở đường cho các ứng dụng thực tiễn như robot hỗ trợ gia đình hoặc các hệ thống tự động thông minh hơn.

Theo TechCrunch, https://techcrunch.com/2025/06/11/metas-v-jepa-2-model-teaches-ai-to-understand-its-surroundings/