Vision и файлы
Изображения, PDF и документы в запросах
Мультимодальные модели принимают смешанный content: массив объектов с типами text, image_url, file. Поддержка зависит от модели — смотрите input_modalities в каталоге.
Vision: URL-изображения
json
Vision: base64
python
PDF и документы
Залейте файл в объектное хранилище (S3, Selectel, Yandex Object Storage) и передайте подписанный URL. Для парсинга PDF на стороне шлюза подключите плагин file-parser.
json
Не все провайдеры принимают files нативно.
file-parser вытащит текст на нашей стороне и прокинет его в prompt — это может увеличить стоимость запроса.Аудио и другие модальности
Аудио-модели (STT/TTS) доступны через /v1/audio/transcriptions и /v1/audio/speech. Документация готовится.
