Volver a herramientas
DisponibleDatos·
Whisper API
API de transcripción y traducción de audio de OpenAI basada en el modelo Whisper. Soporta más de 50 idiomas, con alta precisión incluso en audio de baja calidad o con acento.
Compatible con
PythonTypeScriptREST API
whisperaudiotranscripciónspeech-to-textopenai
Whisper API: transcripción de audio multilingüe
La Whisper API expone el modelo open-source Whisper de OpenAI como servicio gestionado, sin necesidad de infraestructura propia para procesar audio.
Transcripción básica
from openai import OpenAI
client = OpenAI()
with open("audio.mp3", "rb") as audio_file:
transcripcion = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
language="es" # Opcional: especificar idioma mejora la precisión
)
print(transcripcion.text)
Traducción (a inglés)
with open("audio_espanol.mp3", "rb") as audio_file:
traduccion = client.audio.translations.create(
model="whisper-1",
file=audio_file,
)
print(traduccion.text) # Siempre en inglés
Formatos de salida
# Obtener timestamps por segmento
transcripcion = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
response_format="verbose_json",
timestamp_granularities=["segment", "word"]
)
for segmento in transcripcion.segments:
print(f"[{segmento.start:.1f}s - {segmento.end:.1f}s] {segmento.text}")
Formatos de audio soportados
mp3, mp4, mpeg, mpga, m4a, wav, webm (máx. 25MB por archivo)
Idiomas con mejor rendimiento
Español, inglés, francés, alemán, japonés, portugués, italiano, chino, ruso y más de 40 idiomas adicionales.
Combinación con TTS
# Pipeline STT → procesamiento → TTS
texto = client.audio.transcriptions.create(model="whisper-1", file=audio).text
respuesta = client.chat.completions.create(model="gpt-4o", messages=[...])
audio_respuesta = client.audio.speech.create(model="tts-1", voice="alloy", input=respuesta)