Aller au contenu

API Voice & Vision

Endpoints TTS, STT et analyse d'images.

POST /voice/tts

Convertir du texte en audio (Text-to-Speech).

Request

{
  "text": "Bonjour, comment puis-je vous aider?",
  "voice": "fr-FR-DeniseNeural",
  "rate": "+0%",
  "pitch": "+0Hz"
}

Voix Disponibles

Voice Langue Genre
fr-FR-DeniseNeural Français Femme
fr-FR-HenriNeural Français Homme
en-US-JennyNeural Anglais Femme
en-US-GuyNeural Anglais Homme

Response 200

{
  "audio_url": "https://storage.jarvis.ai/audio/uuid.mp3",
  "duration_seconds": 3.5,
  "voice_used": "fr-FR-DeniseNeural"
}

POST /voice/stt

Convertir de l'audio en texte (Speech-to-Text).

Headers

Content-Type: multipart/form-data

Form Data

Field Type Description
audio File MP3, WAV, OGG
language string fr, en

Response 200

{
  "text": "Bonjour, j'ai une question",
  "confidence": 0.95,
  "language_detected": "fr"
}

POST /vision/analyze

Analyser une image avec Claude Vision.

Headers

Content-Type: multipart/form-data

Form Data

Field Type Description
image File PNG, JPG, WEBP
prompt string Question sur l'image

Response 200

{
  "analysis": "L'image montre un graphique...",
  "detected_objects": ["chart", "text"],
  "model_used": "claude-3-sonnet-vision"
}

POST /vision/ocr

Extraire le texte d'une image (OCR).

Response 200

{
  "extracted_text": "FACTURE N°2026-001...",
  "confidence": 0.98,
  "blocks": [
    {"text": "FACTURE", "bbox": [10, 20, 200, 40]}
  ]
}