Skip to content

Улучшение с помощью ИИ

Необязательная функция — можно пропустить!

Этот шаг полностью необязателен. Vox прекрасно работает без улучшения с ИИ — ваши транскрипции уже будут точными. Настраивайте это только если хотите автоматически полировать транскрипции (исправлять грамматику, удалять слова-заполнители, такие как "эм" или "ну").

Если вы не уверены, что это такое, или не хотите настраивать прямо сейчас, смело переходите к следующему разделу!

Улучшение с ИИ использует искусственный интеллект (например, ChatGPT или Claude) для автоматической очистки транскрипций, делая их более отполированными и профессиональными.

Что делает улучшение с ИИ?

Простыми словами: Оно берёт вашу транскрипцию (которая уже точная) и делает её более профессиональной.

Пример:

  • До ИИ: "Эм, значит в общем-то, типа, нам нужно, ну, запланировать встречу на, вы знаете, следующий вторник"
  • После ИИ: "Нам нужно запланировать встречу на следующий вторник"

Основные преимущества

  • Исправляет грамматику: Автоматически исправляет ошибки
  • Удаляет слова-заполнители: Избавляется от "эм", "ну", "типа" и т.д.
  • Делает текст чище: Более профессионально и легче читается
  • Сохраняет смысл: Ваше исходное сообщение остаётся неизменным

Нужно ли это вам?

Вам может понадобиться улучшение с ИИ если:

  • Вы используете Vox для профессиональных документов или писем
  • Вы хотите отполированные транскрипции без редактирования
  • Вы комфортно используете сервисы ИИ (такие как ChatGPT)

Вам НЕ нужно улучшение с ИИ если:

  • Вы просто делаете быстрые заметки для себя
  • Вы предпочитаете полную конфиденциальность (улучшение с ИИ отправляет текст во внешние сервисы)
  • Вам не мешает редактировать транскрипции вручную
  • Вы не знаете, что такое "ключ API"

Замечание о конфиденциальности

Ваше аудио никогда не покидает ваше устройство. Только текстовая транскрипция отправляется в выбранный вами сервис ИИ. Если хотите полной конфиденциальности, оставьте улучшение с ИИ отключённым.

Как настроить

Требования

Для использования улучшения с ИИ вам нужно:

  1. Аккаунт в сервисе ИИ (например, OpenAI, Anthropic, AWS и т.д.)
  2. Ключ API (думайте о нём как о пароле для сервиса ИИ)
  3. Несколько долларов на оплату ИИ (обычно $0,01-0,05 за транскрипцию)

Скоро: Мы работаем над встроенной платной опцией, чтобы вам не пришлось настраивать это самостоятельно.

Настройки улучшения с ИИ

Шаг 1: Открыть настройки улучшения с ИИ

  1. Откройте настройки Vox
  2. Нажмите на Улучшение с ИИ на боковой панели
  3. Включите Улучшать мои транскрипции с помощью ИИ

Улучшение с ИИ включено

Шаг 2: Выбрать поставщика ИИ

Выберите сервис ИИ из выпадающего меню. Популярные варианты:

  • OpenAI (ChatGPT) — Самый популярный, прост в использовании
  • Anthropic (Claude) — Хорошее качество, ориентирован на конфиденциальность
  • AWS Bedrock — Для опытных пользователей
  • Ollama — Запуск ИИ локально (бесплатно, но требует настройки)

Шаг 3: Добавить ключ API

  1. Получите ключ API от выбранного поставщика (см. разделы поставщиков ниже)
  2. Вставьте его в поле Ключ API
  3. Нажмите Проверить соединение, чтобы убедиться, что всё работает

Первый раз?

Если вы никогда не использовали API ИИ раньше, рекомендуем начать с OpenAI (ChatGPT). У них чёткие цены ($0,002 за запрос) и хорошая документация.

Поддерживаемые поставщики

Выпадающее меню поставщиков

Vox поддерживает нескольких поставщиков ИИ. Нажмите на выпадающее меню Поставщик для выбора:

AWS Bedrock

Лучше всего для: Производственного использования, корпоративных сред, разнообразия моделей

Конфигурация AWS Bedrock

Конфигурация:

Регион

  • Выберите ваш регион AWS (например, eu-west-1)
  • Выберите регион рядом с вами для меньшей задержки

Профиль AWS

  • Введите имя вашего профиля AWS (например, sso-bedrock)
  • Использует учётные данные AWS CLI, настроенные в вашей системе

ID ключа доступа

  • Необязательно: Введите ваш ключ доступа AWS
  • Требуется, если не используются профили AWS CLI
  • Формат: AKIA... (20 символов)

Секретный ключ доступа

  • Необязательно: Введите ваш секретный ключ доступа
  • Требуется, если не используются профили AWS CLI
  • Хранится безопасно в Связке ключей macOS / Диспетчере учётных данных Windows

ID модели

  • Укажите модель Bedrock для использования
  • Пример: global.anthropic.claude-haiku-4-5-20251101-v1:0
  • См. Модели AWS Bedrock

Настройка AWS

AWS Bedrock требует:

  1. Аккаунт AWS с доступом к Bedrock
  2. Разрешения IAM для выбранной модели
  3. AWS CLI, настроенный с SSO или ключами доступа

DeepSeek

Лучше всего для: Экономичного улучшения ИИ, хорошей производительности

Конфигурация DeepSeek

Конфигурация:

Ключ API

  • Получите ключ API на DeepSeek
  • Хранится безопасно в Связке ключей macOS / Диспетчере учётных данных Windows

Модель

Endpoint

  • По умолчанию: https://api.deepseek.com
  • Изменяйте только при использовании пользовательского endpoint

Microsoft Foundry

Лучше всего для: Пользователей Azure, корпоративной интеграции

Конфигурация:

  • Аналогично AWS Bedrock
  • Требует подписку Azure и доступ к Foundry
  • Использует аутентификацию Azure

OpenAI

Лучше всего для: Высококачественных моделей GPT, простейшей настройки

Конфигурация:

  • Ключ API: Получите на OpenAI Platform
  • Модель: gpt-4, gpt-4-turbo, gpt-3.5-turbo и т.д.
  • Endpoint: По умолчанию https://api.openai.com/v1

GLM (Zhipu AI)

Лучше всего для: Транскрипции на китайском языке, пользователей Азиатско-Тихоокеанского региона

Конфигурация:

  • Ключ API: Получите на Zhipu AI
  • Модель: glm-4, glm-4-air и т.д.

Anthropic

Лучше всего для: Моделей Claude с высокой способностью к рассуждению

Конфигурация:

  • Ключ API: Получите на Anthropic Console
  • Модель: claude-3-5-sonnet-20241022, claude-3-opus-20240229 и т.д.

LiteLLM

Лучше всего для: Опытных пользователей, пользовательской маршрутизации моделей, единого API

Конфигурация:

  • Endpoint: URL вашего сервера LiteLLM
  • Поддерживает маршрутизацию к 100+ поставщикам LLM
  • См. Документация LiteLLM

Проверка соединения

Успешная проверка соединения

После настройки поставщика:

  1. Нажмите Проверить соединение
  2. Дождитесь завершения теста
  3. Ищите сообщение "Соединение успешно!"

Если тест не пройдёт:

  • Убедитесь, что ваши ключи API/учётные данные правильны
  • Проверьте подключение к интернету
  • Убедитесь, что ваш аккаунт имеет доступ к указанной модели
  • Ознакомьтесь с сообщениями об ошибках для конкретных проблем

Доступ к Связке ключей

Возможно, потребуется предоставить разрешение Связки ключей для безопасного хранения ключей API.

Пользовательские промпты

Вкладка пользовательского промпта

Настройте, как ИИ улучшает ваши транскрипции:

Использование пользовательских промптов

  1. Нажмите на вкладку Пользовательский промпт
  2. Введите ваши пользовательские инструкции
  3. Настройки сохраняются автоматически

Пример пользовательского промпта

Пример пользовательского промпта

Пример промпта:

turn everything to chinese

Это переведёт все транскрипции на китайский язык.

Промпт по умолчанию

Если вы не указываете пользовательский промпт, Vox использует инструкцию по умолчанию для:

  • Исправления грамматики и орфографии
  • Удаления слов-заполнителей (эм, ну, типа и т.д.)
  • Сохранения технических терминов и имён
  • Сохранения исходного смысла

Советы по промптам

Хорошие промпты:

  • "Исправить грамматику, но сохранить технический жаргон"
  • "Удалить слова-заполнители и отформатировать как список"
  • "Перевести на испанский и исправить грамматику"
  • "Сделать более формальным и профессиональным"

Избегайте:

  • Чрезмерно длинных промптов (могут достигать лимитов токенов)
  • Промптов, которые значительно изменяют смысл
  • Промптов, добавляющих информацию, отсутствующую в транскрипции

Экспериментируйте

Тестируйте разные промпты с одной и той же транскрипцией, чтобы найти наиболее подходящий для вашего случая.

Примеры инструкций

Пример пользовательских инструкций в интерфейсе:

Примеры инструкций

Нажмите Примеры инструкций, чтобы увидеть образцы промптов:

  • "Добавьте дополнительные инструкции поверх стандартного поведения Vox, такие как грамматика, удаление слов-заполнителей, фраз нерешительности"
  • Предоставляет руководство по структурированию ваших пользовательских инструкций

Руководства для конкретных поставщиков

Настройка AWS Bedrock

Предварительные требования:

  1. Аккаунт AWS с доступом к Bedrock
  2. Доступ к модели включён в консоли AWS
  3. Настроены разрешения IAM

Использование профиля AWS CLI (Рекомендуется):

bash
# Настройка AWS CLI с SSO
aws configure sso

# Проверьте ваш профиль
aws bedrock list-foundation-models --profile sso-bedrock

В Vox:

  1. Выберите поставщика AWS Bedrock
  2. Введите имя профиля (например, sso-bedrock)
  3. Выберите регион
  4. Введите ID модели
  5. Нажмите Проверить соединение

Использование ключей доступа:

  1. Создайте ключи доступа в AWS IAM
  2. Введите ID ключа доступа и секретный ключ доступа в Vox
  3. Выберите регион и модель
  4. Нажмите Проверить соединение

Безопасность

Храните ключи доступа в безопасном месте. Профили AWS CLI с SSO более безопасны, чем статические ключи доступа.

Настройка DeepSeek

Предварительные требования:

  1. Аккаунт на platform.deepseek.com
  2. Сгенерированный ключ API

Настройка:

  1. Зарегистрируйтесь на DeepSeek
  2. Сгенерируйте ключ API
  3. В Vox выберите поставщика DeepSeek
  4. Введите ваш ключ API
  5. Используйте модель deepseek-chat
  6. Нажмите Проверить соединение

Стоимость: DeepSeek экономичнее по сравнению с другими поставщиками.

Настройка OpenAI

Предварительные требования:

  1. Аккаунт OpenAI
  2. Ключ API с кредитами

Настройка:

  1. Получите ключ API на platform.openai.com/api-keys
  2. В Vox выберите поставщика OpenAI
  3. Введите ваш ключ API
  4. Выберите модель (например, gpt-4-turbo, gpt-3.5-turbo)
  5. Нажмите Проверить соединение

Стоимость: OpenAI взимает плату за токены. GPT-4 дороже, но качественнее GPT-3.5.

Соображения о стоимости

Обзор цен

Стоимость улучшения с ИИ варьируется по поставщикам:

ПоставщикСтоимость за 1М токеновПримечания
DeepSeek~$0,14Наиболее экономичный
OpenAI GPT-3.5~$0,50Хорошее соотношение цена/качество
OpenAI GPT-4~$10-30Высокое качество, дорогой
AWS Bedrock~$0,25-15Варьируется по модели
Anthropic Claude~$3-15Высокое качество

Оценка стоимости

Средняя транскрипция: 50-100 токенов Стоимость за транскрипцию: $0,001-0,01 (зависит от поставщика)

Пример использования:

  • 100 транскрипций/день с DeepSeek: ~$0,50/месяц
  • 100 транскрипций/день с GPT-4: ~$30/месяц

Экономьте деньги

  • Используйте меньшие, более дешёвые модели для простых транскрипций
  • Используйте GPT-4 или Claude только когда нужно наивысшее качество
  • DeepSeek предлагает лучшее соотношение цена/производительность

Будущие цены

Встроенный ИИ скоро

В настоящее время Vox использует ваши собственные ключи API для улучшения с ИИ. В будущем мы можем предложить встроенную платную опцию модели ИИ для удобства.

Это устранит необходимость управлять ключами API и потенциально предложит:

  • Упрощённую настройку (ключи API не нужны)
  • Предсказуемые ежемесячные цены
  • Интегрированный биллинг
  • Оптимизированные модели для транскрипции

Следите за обновлениями!

Лучшие практики

Когда использовать улучшение с ИИ

Используйте улучшение с ИИ для:

  • Профессиональных писем и документации
  • Заметок и резюме встреч
  • Создания контента и письма
  • Формальных коммуникаций

Пропустите улучшение с ИИ для:

  • Быстрых личных заметок
  • Когда требуется полная конфиденциальность
  • Простых, коротких транскрипций
  • Когда скорость критична

Выбор поставщика

Выберите AWS Bedrock если вы:

  • Уже используете AWS для других сервисов
  • Нуждаетесь в безопасности корпоративного уровня
  • Хотите доступ к нескольким поставщикам моделей
  • Имеете существующие кредиты AWS

Выберите DeepSeek если вы:

  • Хотите наиболее экономичный вариант
  • Нуждаетесь в хорошем качестве при низкой стоимости
  • Часто транскрибируете

Выберите OpenAI если вы:

  • Хотите простейшую настройку
  • Нуждаетесь в надёжных результатах высокого качества
  • Уже имеете кредиты OpenAI

Выберите Anthropic если вы:

  • Нуждаетесь в продвинутом рассуждении и точности
  • Работаете со сложным, техническим контентом
  • Хотите специфические возможности Claude

Советы по промпт-инженерии

  1. Будьте конкретны: "Удалить слова-заполнители и исправить грамматику" лучше, чем "улучшить"
  2. Тестируйте итерации: Пробуйте разные промпты, чтобы найти подходящий
  3. Комбинируйте инструкции: "Исправить грамматику, удалить заполнители и отформатировать как список"
  4. Учитывайте контекст: Адаптируйте промпты для разных случаев (письмо vs. комментарии к коду)

Устранение неполадок

Тест соединения не прошёл

AWS Bedrock:

  • Убедитесь, что разрешения IAM включают доступ к модели Bedrock
  • Проверьте, что регион соответствует месту доступности модели
  • Протестируйте AWS CLI: aws bedrock list-foundation-models --region <region>
  • Убедитесь, что ID модели правильный

DeepSeek/OpenAI/Anthropic:

  • Убедитесь, что ключ API действителен
  • Проверьте, что ваш аккаунт имеет кредиты/активную подписку
  • Убедитесь, что URL endpoint правильный
  • Протестируйте ключ API с curl:
    bash
    curl https://api.deepseek.com/v1/models \
      -H "Authorization: Bearer YOUR_API_KEY"

Улучшение с ИИ занимает слишком много времени

Решения:

  • Переключитесь на более быструю модель (например, GPT-3.5 вместо GPT-4)
  • Используйте поставщика с меньшей задержкой
  • Проверьте подключение к интернету
  • Уменьшите сложность пользовательского промпта

Улучшенный текст неверен

Решения:

  • Уточните ваш пользовательский промпт
  • Попробуйте другую модель (большие модели часто точнее)
  • Используйте более простой промпт или поведение по умолчанию
  • Сначала убедитесь, что ваша базовая транскрипция точна

Ключ API сохранён неверно

Решение:

  1. Перейдите в Настройки → Улучшение с ИИ
  2. Повторно введите ваш ключ API
  3. Предоставьте доступ к Связке ключей при запросе
  4. Нажмите Проверить соединение для проверки

Высокие расходы на API

Решения:

  • Переключитесь на более дешёвого поставщика (DeepSeek)
  • Используйте улучшение с ИИ выборочно (отключите для быстрых заметок)
  • Следите за использованием на панели управления поставщика
  • Рассмотрите использование меньших моделей
  • Оптимизируйте пользовательский промпт для уменьшения выходных токенов

Безопасность и конфиденциальность

Конфиденциальность данных

Что отправляется поставщикам ИИ:

  • Только текстовая транскрипция (после локальной обработки Whisper)
  • Ваш пользовательский промпт
  • Без аудио, без личной информации кроме текста транскрипции

Что НЕ отправляется:

  • Исходные аудиозаписи
  • Другие транскрипции (каждый запрос независим)
  • Личная информация из настроек Vox

Безопасное хранение

  • Ключи API: Хранятся в зашифрованном виде в Связке ключей macOS / Диспетчере учётных данных Windows
  • Учётные данные: Никогда не передаются на серверы Vox
  • Транскрипции: Могут храниться локально (см. Хранение аудио)

Политики конфиденциальности поставщиков

Ознакомьтесь с политиками конфиденциальности выбранного поставщика:

Обработка данных

При включении улучшения с ИИ ваши транскрипции отправляются сторонним поставщикам ИИ. Если вы работаете с конфиденциальной информацией, рассмотрите:

  • Использование только локальной транскрипции (отключить улучшение с ИИ)
  • Выбор поставщиков с сильными гарантиями конфиденциальности
  • Использование частных развёртываний (AWS PrivateLink, Azure Private Link)

Расширенная настройка

Пользовательские endpoints

Некоторые поставщики позволяют использовать пользовательские endpoints для:

  • Частных развёртываний
  • Локальных установок
  • Прокси-серверов
  • Региональных оптимизаций

Введите пользовательские endpoints в поле Endpoint при настройке поставщика.

LiteLLM для расширенной маршрутизации

Поставщик LiteLLM

LiteLLM позволяет:

  • Единый интерфейс для 100+ поставщиков LLM
  • Автоматический fallback и повторные попытки
  • Балансировку нагрузки между несколькими поставщиками
  • Отслеживание стоимости и бюджеты

Настройка:

  1. Разверните сервер LiteLLM: https://docs.litellm.ai
  2. Выберите поставщика LiteLLM в Vox
  3. Введите URL вашего сервера LiteLLM
  4. Настройте маршрутизацию в конфигурации LiteLLM

Переменные среды

Если вы используете профили AWS CLI или переменные среды, Vox учитывает:

  • AWS_PROFILE
  • AWS_REGION
  • AWS_ACCESS_KEY_ID
  • AWS_SECRET_ACCESS_KEY

Следующие шаги

Создано с 💜 open-source сообществом и основными участниками