multimodal model

Assess

Kỹ thuật

Mô hình có thể xử lý và kết hợp nhiều dạng đầu vào như văn bản và hình ảnh.

Vì sao ở đây

Xếp vào Assess: 3 bài bằng chứng từ 2 nguồn, chủ yếu là cập nhật framework, 1 bài trong 30 ngày qua. Độ tin cậy 46%.

Bằng chứng (3)

6Google DeepMind Blog·9/6/2026model_release
Google DeepMind ra mắt Gemma 4 12B
Google DeepMind giới thiệu Gemma 4 12B, một mô hình đa phương thức thống nhất được thiết kế không cần thành phần encoder riêng. Thông báo này nhấn mạnh kiến trúc mô hình hướng tới việc xử lý nhiều loại đầu vào trong cùng một hệ thống. Phần tiêu đề không nêu thêm chi tiết kỹ thuật nào khác.
5Hugging Face Blog·16/4/2026framework_update
Huấn luyện và tinh chỉnh mô hình nhúng và reranker đa phương thức
Bài viết hướng dẫn cách huấn luyện và tinh chỉnh các mô hình embedding và reranker đa phương thức bằng Sentence Transformers. Nội dung tập trung vào việc xây dựng mô hình có thể xử lý nhiều kiểu đầu vào và cải thiện chất lượng truy xuất cho các tác vụ tìm kiếm và xếp hạng sau đó.
6Hugging Face Blog·9/4/2026framework_update
Mô hình nhúng và reranker đa phương thức với Sentence Transformers
Hugging Face công bố hỗ trợ mô hình nhúng và reranker đa phương thức trong hệ sinh thái Sentence Transformers. Cập nhật này giúp xây dựng dễ hơn các pipeline truy xuất và xếp hạng có thể xử lý văn bản cùng các phương thức khác như hình ảnh. Nó mở rộng phạm vi ứng dụng của thư viện cho các bài toán tìm kiếm và gợi ý dựa trên mô hình mã nguồn mở.