SAM 3 – Mô hình AI xử lý hình ảnh, video bằng văn bản

SAM 3 là thế hệ thứ ba của dòng mô hình Segment Anything Model (Mô hình Phân đoạn Mọi thứ) do Meta phát triển, được thiết kế như một mô hình xử lý hình ảnh và video đa năng có khả năng phát hiện, phân đoạn và theo dõi đối tượng dựa trên mô tả ngôn ngữ và mẫu hình ảnh. Điều này giúp nó không chỉ tách đối tượng trong ảnh như những phiên bản trước, mà còn có thể hiểu yêu cầu mang tính ngữ nghĩa và tìm tất cả các đối tượng phù hợp theo mô tả đó trong cả ảnh và video.

SAM 3 – Mô hình AI xử lý hình ảnh, video bằng văn bản

Một điểm khác biệt lớn của SAM 3 so với SAM 1 và SAM 2 là việc nó hỗ trợ Promptable Concept Segmentation (PCS) – tức là bạn có thể nhập một mô tả ngắn (ví dụ “xe buýt màu vàng”, “mèo sọc”), và mô hình sẽ tìm, phân đoạn và gán nhãn cho tất cả các đối tượng khớp với mô tả đó trong ảnh hoặc từng khung hình video.

SAM 3 có thể nhận nhiều loại yêu cầu:

  • Text prompt (lời mô tả bằng ngôn ngữ) để tìm tất cả đối tượng theo nội dung mô tả;
  • Exemplar prompt (vùng mẫu) bằng cách khoanh vùng một ví dụ, rồi tìm các đối tượng có hình dáng tương tự;
  • Visual prompt (click, khung, mask) như các thế hệ trước để tinh chỉnh kết quả phân đoạn.

Ngoài ra, SAM 3 tích hợp khả năng theo dõi các đối tượng qua thời gian trong video, giữ ID ổn định cho mỗi đối tượng khi nó di chuyển qua các khung hình.

Meta cũng mở rộng dòng công nghệ này với SAM 3D, cho phép từ hình ảnh 2D tạo ra mô hình 3D của đối tượng hoặc con người, mở rộng khả năng từ phân đoạn 2D sang tái tạo 3D.

Tóm lại, SAM 3 từ Meta là một mô hình thị giác máy tính tiên tiến, giúp máy tính hiểu và thao tác với hình ảnh/video ở mức độ ngôn ngữ và khái niệm, phục vụ cho các ứng dụng như chỉnh sửa ảnh/video, phân tích cảnh, tạo dữ liệu huấn luyện, robot, AR/VR và nhiều lĩnh vực khác.

Truy cập ngay trang chủ SAM 3 https://ai.meta.com/sam3/