Как создать 1 встраивание для текста + изображения
Краткое содержание
Я использую Ollama для запуска LLM. Я могу создавать эмбеддинги для текста и изображений, которые я сохраняю в ChromaDB. Цель всего этого – найти контент, который наилучшим образом соответствует вопросу, чтобы я мог создать хороший ответ. Вот как я создаю эмбеддинги для textcurl http://localhost:11434/api/embeddings -d '{ "model": "llama2", "prompt": "Here is an article about llamas..." }' и для изображений (в формате base64) curl http://localhost:11434/api/generate -d '{ "model": "llava", "prompt":"What is in this picture?", "stream": false, "images": ["iVBORw0KGgoAAAANS.....]'. Однако теперь у меня есть контент, который представляет собой текст и изображение вместе. Текст (или изображение) по отдельности бессмысленны, но вместе они рассказывают полную историю. Итак, мой вопрос в том, как мне это обрабатывать? Возможно ли создать единый эмбеддинг для обоих?
Полный текст статьи пока не загружен.