Guía de API de voz a texto

Descripción general

La API de audio proporciona dos puntos finales principales:

📝 transcripciones: audio a texto

🔄 traducciones: traducción de audio al inglés

Formatos admitidos

📁 Tamaño del archivo: máximo 25 MB

🎵 Formatos admitidos: mp3, mp4, mpeg, mpg, m4a, wav, webm

Cómo utilizar

1. Transcripción

Convertir audio a texto en el idioma original

desde openai importar OpenAI

cliente = OpenAI (
    base_url="https://yossapi.com/v1",
    api_key=clave
)

#Transcripción Básica
archivo_audio = abrir("/ruta/al/archivo/audio.mp3", "rb")
transcripción = cliente.audio.transcripciones.create(
  modelo="susurro-1",
  archivo=archivo_audio
)
imprimir (transcripción.texto)

#Especificar formato de salida
transcripción = cliente.audio.transcripciones.create(
  modelo="susurro-1",
  archivo=archivo_audio,
  respuesta_formato="texto"
)

2. Traducción

Convierta audio de cualquier idioma a texto en inglés

desde openai importar OpenAI

cliente = OpenAI (
    base_url="https://yossapi.com/v1",
    api_key=clave
)

archivo_audio = abrir("/ruta/al/archivo/alemán.mp3", "rb")
traducción = cliente.audio.traducciones.create(
  modelo="susurro-1",
  archivo=archivo_audio
)
imprimir(traducción.texto)

3. Función de marca de tiempo

desde openai importar OpenAI

cliente = OpenAI (
    base_url="https://yossapi.com/v1",
    api_key=clave
)

archivo_audio = abrir("voz.mp3", "rb")
transcripción = cliente.audio.transcripciones.create(
  archivo=archivo_audio,
  modelo="susurro-1",
  respuesta_formato="verbose_json",
  timestamp_granularities=["palabra"]
)

imprimir (transcripción.palabras)

4. Procesamiento de archivos grandes

Utilice PyDub para dividir archivos de más de 25 MB:

desde pydub importar AudioSegment

canción = AudioSegment.from_mp3("buenos_días.mp3")

# Dividir en segmentos de 10 minutos
diez_minutos = 10 * 60 * 1000
primeros_10_minutos = canción[:diez_minutos]
primeros_10_minutos.export("buenos_días_10.mp3", formato="mp3")

Sugerencias de optimización

Consejos (indicaciones) consejos de uso

🔍 Se utiliza para corregir el reconocimiento de palabras específicas.

📜 Mantener la coherencia contextual

✍️ Controlar la salida de signos de puntuación

🗣️Mantén las palabras de relleno

📝 Controle el estilo del texto de salida (como chino simplificado y tradicional)

Idiomas admitidos

Admite 98 idiomas, incluidos:
-Principales idiomas asiáticos: chino, japonés, coreano, etc.

Idiomas europeos: inglés, francés, alemán, etc.

Otros idiomas regionales: árabe, hindi, etc.

Nota: Solo se enumeran los idiomas con una tasa de error de palabras (WER) inferior al 50%. Se admiten otros idiomas, pero pueden tener una calidad inferior.

Python usa voz a texto

Guía de API de voz a texto#

Descripción general#

Formatos admitidos#

Cómo utilizar#

1. Transcripción#

2. Traducción#

3. Función de marca de tiempo#

4. Procesamiento de archivos grandes#

Sugerencias de optimización#

Consejos (indicaciones) consejos de uso#

Idiomas admitidos#