Войти
20.06.2026 21:45

Google выпустила Gemini Embedding 2

Gemini Embedding 2 - первая нативно мультимодальная эмбеддинг-модель, в которой один запрос может содержать сразу несколько типов данных: например, изображение плюс текст, которые модель обрабатывает совместно, улавливая смысловые связи между разными форматами. Заявлена поддержка более 100 языков.

 

По параметрам: Текст: до 8 192 токенов; Изображения: до 6 штук в запросе (PNG, JPEG); Видео: до 120 секунд (MP4, MOV); PDF: до 6 страниц; Аудио понимает напрямую, без промежуточной транскрибации.

Размерность векторов по умолчанию - 3072, но за счет Matryoshka RL можно снизить до 1536 или 768, жертвуя частью точности ради экономии памяти и ускорения поиска. Это та же техника вложенных представлений, которую Google использовала в предыдущих моделях и теперь она работает с мультимодальными данными.

Новинка доступна через Gemini API и Vertex AI в режиме Public Preview. Из коробки работает с LangChain, LlamaIndex, Haystack, Weaviate, Qdrant и ChromaDB. На GitHub можно найти Notebook-примеры для Gemini и Vertex .