Logo
Версия для печати

Google выпустила Gemini Embedding 2

Gemini Embedding 2 - первая нативно мультимодальная эмбеддинг-модель, в которой один запрос может содержать сразу несколько типов данных: например, изображение плюс текст, которые модель обрабатывает совместно, улавливая смысловые связи между разными форматами. Заявлена поддержка более 100 языков.

 

По параметрам: Текст: до 8 192 токенов; Изображения: до 6 штук в запросе (PNG, JPEG); Видео: до 120 секунд (MP4, MOV); PDF: до 6 страниц; Аудио понимает напрямую, без промежуточной транскрибации.

Размерность векторов по умолчанию - 3072, но за счет Matryoshka RL можно снизить до 1536 или 768, жертвуя частью точности ради экономии памяти и ускорения поиска. Это та же техника вложенных представлений, которую Google использовала в предыдущих моделях и теперь она работает с мультимодальными данными.

Новинка доступна через Gemini API и Vertex AI в режиме Public Preview. Из коробки работает с LangChain, LlamaIndex, Haystack, Weaviate, Qdrant и ChromaDB. На GitHub можно найти Notebook-примеры для Gemini и Vertex .

2013 - 2026 © 24minsk.by. Все права защищены.
Использование любых материалов, размещённых на интернет-сайте, разрешается при условии ссылки (для интернет-ресурсов - активной гиперссылки) на 24minsk.by.