Genmo – Công cụ tạo video chuyên nghiệp bằng AI
Genmo là một nền tảng trí tuệ nhân tạo chuyên về tạo video từ văn bản (text-to-video), được phát triển bởi một phòng thí nghiệm AI mã nguồn mở. Sản phẩm nổi bật của Genmo hiện nay là Mochi 1, một mô hình tạo video tiên tiến được cấp phép sử dụng theo giấy phép Apache 2.0, cho phép người dùng khai thác cho cả mục đích cá nhân lẫn thương mại. Mochi 1 có khả năng tạo ra các video ngắn có độ mượt cao, thể hiện chuyển động tự nhiên và trung thực, nhờ vào kiến trúc mô hình Asymmetric Diffusion Transformer (AsymmDiT) kết hợp với bộ mã hóa–giải mã video (Video VAE).

Người dùng có thể nhập mô tả văn bản (prompt) và nhận lại video mô phỏng đúng nội dung mong muốn, từ nhân vật, hành động đến bối cảnh. Hiện tại, Mochi 1 hỗ trợ video độ phân giải 480p, thời lượng khoảng 5 giây với tốc độ 30 khung hình/giây. Mô hình gồm khoảng 10 tỷ tham số, được thiết kế tối ưu cho khả năng hiểu và bám sát mô tả đầu vào, đồng thời mô phỏng tốt các hiệu ứng vật lý như ánh sáng, chất lỏng hoặc tóc chuyển động.
Genmo cung cấp giao diện Playground trực tuyến giúp người dùng dễ dàng nhập prompt và xem kết quả ngay mà không cần cài đặt. Ngoài ra, toàn bộ mô hình và trọng số đều được công bố trên GitHub và Hugging Face, cho phép nhà phát triển tải về, chạy cục bộ hoặc tích hợp vào ứng dụng riêng thông qua API. Tuy nhiên, phiên bản hiện tại vẫn có một số hạn chế như độ phân giải thấp, đôi khi xuất hiện biến dạng trong cảnh phức tạp và yêu cầu GPU mạnh nếu muốn chạy mô hình tại chỗ. Dù vậy, Genmo và Mochi 1 vẫn được đánh giá là một trong những bước tiến nổi bật trong lĩnh vực video AI mã nguồn mở, mở ra tiềm năng lớn cho sáng tạo nội dung tự động trong tương lai.
Truy cập ngay trang chủ Genmo https://www.genmo.ai