API Voice & Vision¶
Endpoints TTS, STT et analyse d'images.
POST /voice/tts¶
Convertir du texte en audio (Text-to-Speech).
Request¶
{
"text": "Bonjour, comment puis-je vous aider?",
"voice": "fr-FR-DeniseNeural",
"rate": "+0%",
"pitch": "+0Hz"
}
Voix Disponibles¶
| Voice | Langue | Genre |
|---|---|---|
fr-FR-DeniseNeural | Français | Femme |
fr-FR-HenriNeural | Français | Homme |
en-US-JennyNeural | Anglais | Femme |
en-US-GuyNeural | Anglais | Homme |
Response 200¶
{
"audio_url": "https://storage.jarvis.ai/audio/uuid.mp3",
"duration_seconds": 3.5,
"voice_used": "fr-FR-DeniseNeural"
}
POST /voice/stt¶
Convertir de l'audio en texte (Speech-to-Text).
Headers¶
Form Data¶
| Field | Type | Description |
|---|---|---|
audio | File | MP3, WAV, OGG |
language | string | fr, en |
Response 200¶
POST /vision/analyze¶
Analyser une image avec Claude Vision.
Headers¶
Form Data¶
| Field | Type | Description |
|---|---|---|
image | File | PNG, JPG, WEBP |
prompt | string | Question sur l'image |
Response 200¶
{
"analysis": "L'image montre un graphique...",
"detected_objects": ["chart", "text"],
"model_used": "claude-3-sonnet-vision"
}
POST /vision/ocr¶
Extraire le texte d'une image (OCR).