Google выпустила Gemini Embedding 2
- Елена Санникова
- Технологии
- 0 комментарии
Gemini Embedding 2 - первая нативно мультимодальная эмбеддинг-модель, в которой один запрос может содержать сразу несколько типов данных: например, изображение плюс текст, которые модель обрабатывает совместно, улавливая смысловые связи между разными форматами. Заявлена поддержка более 100 языков.
По параметрам: Текст: до 8 192 токенов; Изображения: до 6 штук в запросе (PNG, JPEG); Видео: до 120 секунд (MP4, MOV); PDF: до 6 страниц; Аудио понимает напрямую, без промежуточной транскрибации.
Размерность векторов по умолчанию - 3072, но за счет Matryoshka RL можно снизить до 1536 или 768, жертвуя частью точности ради экономии памяти и ускорения поиска. Это та же техника вложенных представлений, которую Google использовала в предыдущих моделях и теперь она работает с мультимодальными данными.
Новинка доступна через Gemini API и Vertex AI в режиме Public Preview. Из коробки работает с LangChain, LlamaIndex, Haystack, Weaviate, Qdrant и ChromaDB. На GitHub можно найти Notebook-примеры для Gemini и Vertex .


































