API Voice & Vision¶

Endpoints TTS, STT et analyse d'images.

POST `/voice/tts`¶

Convertir du texte en audio (Text-to-Speech).

{
  "text": "Bonjour, comment puis-je vous aider?",
  "voice": "fr-FR-DeniseNeural",
  "rate": "+0%",
  "pitch": "+0Hz"
}

{
  "audio_url": "https://storage.jarvis.ai/audio/uuid.mp3",
  "duration_seconds": 3.5,
  "voice_used": "fr-FR-DeniseNeural"
}

Convertir de l'audio en texte (Speech-to-Text).

Content-Type: multipart/form-data

Field	Type	Description
`audio`	File	MP3, WAV, OGG
`language`	string	`fr`, `en`

{
  "text": "Bonjour, j'ai une question",
  "confidence": 0.95,
  "language_detected": "fr"
}

Analyser une image avec Claude Vision.

Content-Type: multipart/form-data

Field	Type	Description
`image`	File	PNG, JPG, WEBP
`prompt`	string	Question sur l'image

{
  "analysis": "L'image montre un graphique...",
  "detected_objects": ["chart", "text"],
  "model_used": "claude-3-sonnet-vision"
}

Extraire le texte d'une image (OCR).

{
  "extracted_text": "FACTURE N°2026-001...",
  "confidence": 0.98,
  "blocks": [
    {"text": "FACTURE", "bbox": [10, 20, 200, 40]}
  ]
}