Можно ли создать одно единственное вложение (embedding) как для текста, так и для соответствующего изображения?
Краткое содержание
Я использую Ollama для запуска LLM. Я могу создавать эмбеддинги для текста и изображений, которые я сохраняю в ChromaDB. Цель всего этого – найти контент, который наилучшим образом соответствует вопросу, чтобы я мог создать хороший ответ. Вот как я создаю эмбеддинги для textcurl http://localhost:11434/api/embeddings -d '{ "model": "llama2", "prompt": "Here is an article about llamas..." }' и для изображений (base64) curl http://localhost:11434/api/generate -d '{ "model": "llava", "prompt":"What is in this picture?", "stream": false, "images": ["iVBORw0KGgoAAAANS.....] } Однако теперь у меня есть контент, который представляет собой текст и изображение вместе. Текст (или изображение) по отдельности бессмысленны, но вместе они рассказывают полную историю. Поэтому мой вопрос в том, как мне с этим обращаться? Возможно ли создать единый эмбеддинг для обоих?
Полный текст статьи пока не загружен.