Руководство по преобразованию речи в текст по API

Обзор

Audio API предоставляет две основные конечные точки:

📝 транскрипции: аудио в текст

🔄 переводы: аудиоперевод на английский язык.

Поддерживаемые форматы

📁 Размер файла: Макс. 25 МБ.

🎵 Поддерживаемые форматы: mp3, mp4, mpeg, mpg, m4a, wav, webm.

Как использовать

1. Транскрипция

Преобразование аудио в текст на языке оригинала

из openai импорт OpenAI

клиент = OpenAI(
    base_url="https://yossapi.com/v1",
    api_key=ключ
)

#Базовая транскрипция
audio_file = open("/путь/к/файлу/audio.mp3", "rb")
транскрипция = client.audio.transscriptions.create(
  модель="шепот-1",
  файл = аудио_файл
)
печать(транскрипция.текст)

#Указываем выходной формат
транскрипция = client.audio.transscriptions.create(
  модель="шепот-1",
  файл = аудио_файл,
  ответ_формат="текст"
)

2. Перевод

Конвертируйте аудио на любом языке в английский текст

из openai импорт OpenAI

клиент = OpenAI(
    base_url="https://yossapi.com/v1",
    api_key=ключ
)

audio_file = open("/путь/к/файлу/german.mp3", "rb")
перевод = client.audio.translations.create(
  модель="шепот-1",
  файл = аудио_файл
)
печать(перевод.текст)

3. Функция отметки времени

из openai импорт OpenAI

клиент = OpenAI(
    base_url="https://yossapi.com/v1",
    api_key=ключ
)

audio_file = open("speech.mp3", "rb")
расшифровка = client.audio.transscriptions.create(
  файл = аудио_файл,
  модель="шепот-1",
  response_format="verbose_json",
  timestamp_granularities=["слово"]
)

печать(транскрипт.слова)

4. Обработка больших файлов

Используйте PyDub для разделения файлов размером более 25 МБ:

из pydub импортировать AudioSegment

песня = AudioSegment.from_mp3("good_morning.mp3")

# Разделить на 10-минутные сегменты
десять_минут = 10 * 60 * 1000
first_10_MINUT = песня[:ten_MINUT]
first_10_MINUT.export("good_morning_10.mp3", format="mp3")

Предложения по оптимизации

Советы (Подсказки) советы по использованию

🔍 Используется для исправления распознавания определенных слов.

📜 Поддерживайте контекстную связность

✍️ Контроль вывода знаков препинания

🗣️Сохраняйте слова-вставки.

📝 Контролируйте стиль вывода текста (например, упрощенный и традиционный китайский)

Поддерживаемые языки

Поддерживает 98 языков, в том числе:
-Основные азиатские языки: китайский, японский, корейский и т. д.

Европейские языки: английский, французский, немецкий и т.д.

Другие региональные языки: арабский, хинди и т. д.

Примечание. В списке указаны только языки с коэффициентом ошибок в словах (WER) менее 50 %. Другие языки поддерживаются, но качество может быть ниже.

Python использует речь в тексте

Руководство по преобразованию речи в текст по API#

Обзор#

Поддерживаемые форматы#

Как использовать#

1. Транскрипция#

2. Перевод#

3. Функция отметки времени#

4. Обработка больших файлов#

Предложения по оптимизации#

Советы (Подсказки) советы по использованию#

Поддерживаемые языки#