Увеличиваем громкость MP3-файла. Как улучшить разборчивость записанной речи Обработка диктофонной записи за деньги

Я часто записываю информацию на диктофон. Но в результате получается звук очень тихий и с шумами. Необходимо улучшить качество сделанных записей. Для этого я буду использовать Adobe Audition CS5.5.

0. Получение файла

После того как была произведена запись, файл необходимо скопировать на компьютер. Обычно для этого используются специализированные программы, входящие в комплект поставки диктофона или телефона.

1. Загрузка файла

Меню"File" > "Open..." и появившемся окне выбираем обрабатываемый файл.

Отмечу, что Adobe Audition поддерживает большое количество форматов звуковых файлов.

2. Перевод в mono (если необходимо)

Некоторые платы захватывают монозвук только в стереорежиме Stereo. Во-первых, эта лишняя трата места (каналы дублируются). Во-вторых, обрабатывать два раза одно и то же (для каждого канала) нет смысла. Поэтому такие записи необходимо перевести в моно.

Стереозапись

Для этого нужно:

Выбрать "Edit" > "Extract Channels to Mono Files", а затем сохранить одну из двух полученных дорожек в файл.
Выбрать "Edit" > "Convert Sample Type", а затем изменить параметр Channels на mono. Можно также изменить частоту на 48 000 Гц (качество эта процедура не улучшит, но сделает запись совместимой с форматом DVD).

Таким образом, получаем монозапись:

Монозапись

3. Обработка звука с 32-битным разрешением

Настоятельно рекомендуется проводить обработку звука в разрешении большем, чем разрешение конечного результата - это позволит повысить точность выполнения всех промежуточных преобразований и положительно скажется на качестве звука.

Если для исходного материала и результата используется 16 бит, то рекомендуется все промежуточные операции проводить с разрешением 32 бита. Для этого перед началом обработки звука нужно преобразовать его в формат 32 бита, а по окончании обработки - обратно в 16 бит. Если исходный материал и результат по 32 бита, то увеличить разрешение не получится (32 бита - максимум).

Сделать это можно при помощи "Edit" > "Convert Sample Type", частоту дискретизации (Sample Rate) и каналы (Channels) оставляем такими же (Same as Source), а для разрядности (Bit Depth) выбираем 32 или 16 бит, соответственно.

4. Удаление постоянной составляющей

Следующий этап - удаление постоянной составляющей. Часто при записи звука аппаратура добавляет в звуковой выход некоторую постоянную составляющую. Данное явление приводит к тому, что после записи "синусоида" оцифрованного звука смещена вверх или вниз от центра - нулевого уровня, что может создать сложности при дальнейшей обработке звука.
Чтобы убрать постоянную составляющую в звуковом файле, используется функция"Effects" > "Amplitude and Compression" > "Normalize (process)", выставите DC Bias Adjust 0.0%:

5. Удаление фонового шума

Наиболее важный этап, на мой взгляд, удаление фонового шума. Удаление шума состоит из двух подэтапов. Сначала нужно найти часть записи, в которой нет никаких звуков - только шум. Как правило, такие участки есть перед началом записи или в самом её конце, можно также использовать паузу посреди записи. Чем длиннее такой фрагмент, тем лучше можно определить профиль шума. Поэтому в конце записи я на пару минут оставляю диктофон в помещение, где производилась сама запись.

Открываем форму обработки шума: "Effects" > "Noise Reduction / Restoration" > "Noise Reduction (process)". В ней делаем следующие действия:

Жмём "Capture Noise Print", тем самым захватывая профиль шума. После этого в окне отобразится график шума.
Воспроизводим файл, нажимая "Select Entire File" и "Play". Пока звучит запись мы на лету можем регулировать шумоподавление.
Регулировка шумоподавления осуществляется передвижением точек синей линии. Двигая их вверх-вниз необходимо добиться наилучшего звучания записи без шума.
Как только найден подходящий фильтр, его можно и нужно сохранить в файл. Во-первых, это позволяет избежать повторной настройки. Во-вторых, в новых записях возможно не будет фрагмента, который содержат только шум.
На последнем шаге необходимо применить фильтр ко всему файлу, нажав кнопку "Apply". Если требуется применить фильтр только к определённой части записи, то из окна "Effect - Noise Reduction" можно переключится в основное окно и выделить необходимый фрагмент.

Нужно быть внимательным при выборе части звукового файла, в которой только шум и нет никаких звуков. Дело в том, что если в этом фрагменте окажется какой-то звук, то Adobe Audition будет удалять все похожие звуки по всей записи. Это приведет к появлению неприятных "металлических" призвуков, особенно заметных на музыкальных фрагментах. Также вы можете судить о наличии таких звуков в вашем фрагменте по изломам и всплескам на спектре шума в окне Noise reduction. Обычно график спектра шума представляет собой плавно меняющуюся линию без резких изломов, возможно, с одним или несколькими всплесками в области высоких частот (справа) (в области высоких частот шумы в звуковом тракте видеотехники особо велики: свист и шипение). Если в результате удаления шума возникли такие призвуки, попробуйте отменить операцию ("Edit" > "Undo noise reduction") и повторить всё с самого начала, начиная с выделения фрагмента звука с шумом. Образец шума и очищаемый от шума звуковой фрагмент могут храниться в разных файлах, эти файлы могут иметь разную разрядность: необходимо только чтобы у этих файлов была одинаковая частота дискретизации и количество каналов.

Функция подавления шума в Adobe Audition является универсальной и позволяет с легкостью удалять почти любые шумы. В результате файл, очищенный от шумов, звучит значительно лучше.

6. Удаление ненужных фрагментов

Понятно, что некоторые фрагменты записи будут просто не нужны. Их следует удалить.

7. Удаление пауз

0. Получение файла

После того как была произведена запись, файл необходимо скопировать на компьютер. Обычно для этого используются специализированные программы, входящие в комплект поставки диктофона или телефона.

Меню"File" > "Open..." и появившемся окне выбираем обрабатываемый файл.

Отмечу, что Adobe Audition поддерживает большое количество форматов звуковых файлов.

2. Перевод в mono (если необходимо)

Некоторые платы захватывают монозвук только в стереорежиме Stereo. Во-первых, эта лишняя трата места (каналы дублируются). Во-вторых, обрабатывать два раза одно и то же (для каждого канала) нет смысла. Поэтому такие записи необходимо перевести в моно.

Стереозапись

Для этого нужно:

Выбрать "Edit" > "Extract Channels to Mono Files", а затем сохранить одну из двух полученных дорожек в файл.
Выбрать "Edit" > "Convert Sample Type", а затем изменить параметр Channels на mono. Можно также изменить частоту на 48 000 Гц (качество эта процедура не улучшит, но сделает запись совместимой с форматом DVD).

Таким образом, получаем монозапись:

Монозапись

3. Обработка звука с 32-битным разрешением

4. Удаление постоянной составляющей

Следующий этап - удаление постоянной составляющей. Часто при записи звука аппаратура добавляет в звуковой выход некоторую постоянную составляющую. Данное явление приводит к тому, что после записи "синусоида" оцифрованного звука смещена вверх или вниз от центра - нулевого уровня, что может создать сложности при дальнейшей обработке звука.
Чтобы убрать постоянную составляющую в звуковом файле, используется функция"Effects" > "Amplitude and Compression" > "Normalize (process)", выставите DC Bias Adjust 0.0%:

5. Удаление фонового шума

Открываем форму обработки шума: "Effects" > "Noise Reduction / Restoration" > "Noise Reduction (process)". В ней делаем следующие действия:

Жмём "Capture Noise Print", тем самым захватывая профиль шума. После этого в окне отобразится график шума.
Воспроизводим файл, нажимая "Select Entire File" и "Play". Пока звучит запись мы на лету можем регулировать шумоподавление.
Регулировка шумоподавления осуществляется передвижением точек синей линии. Двигая их вверх-вниз необходимо добиться наилучшего звучания записи без шума.
Как только найден подходящий фильтр, его можно и нужно сохранить в файл. Во-первых, это позволяет избежать повторной настройки. Во-вторых, в новых записях возможно не будет фрагмента, который содержат только шум.
На последнем шаге необходимо применить фильтр ко всему файлу, нажав кнопку "Apply". Если требуется применить фильтр только к определённой части записи, то из окна "Effect - Noise Reduction" можно переключится в основное окно и выделить необходимый фрагмент.

Функция подавления шума в Adobe Audition является универсальной и позволяет с легкостью удалять почти любые шумы. В результате файл, очищенный от шумов, звучит значительно лучше.

6. Удаление ненужных фрагментов

Понятно, что некоторые фрагменты записи будут просто не нужны. Их следует удалить.

7. Удаление пауз

Довольно часто попадаются хорошие подкасты или аудиотрансляции с семинаров и конференций, однако интересная тема и интригующая манера подачи материала сводятся на нет невысоким качеством самой записи. Это может быть, как низкий уровень звука, так и сильные перепады громкости на разных отрывках. Они сильно портят впечатление и заставляют слушателя интенсивно мучать кнопки «громче-тише».

Отдельную проблему представляет фоновый шум, а также резкие вопли-кашли-чихания. Впрочем, все эти и многие другие недостатки можно устранить с помощью бесплатной программы Audacity . В данной статье я расскажу об обязательной минимальной обработке записи голоса или собственного подкаста, позволяющей сделать прослушивание комфортным.

Звуковой редактор Audacity бесплатен и имеет русский язык, он скачивается с официального сайта . Инсталляция не вызывает никаких проблем – опции при установке менять не требуется. Однако после инсталляции необходимо доустановить пару модулей, чтобы программа понимала различные аудиоформаты, а также самостоятельно могла экспортировать звук в mp3. Дело в том, что автор не стал связываться с юридической стороной вопроса легальности использования закрытых форматов и переложил эти проблемы на пользователя.

Настройка библиотек в Audacity. Сначала скачиваем, потом распаковываем, далее указываем.

Заходим в Правка-Параметры-Библиотеки . Здесь требуется установить библиотеки LAME и FFmpeg. Нажимаем на кнопку Скачать и в браузере откроется ссылка на нужную библиотеку – соответственно «LAME download page» и «Go to the external download page». После скачивания распаковываем содержимое архивов в папку с программой и указываем файл кнопкой Указать... Теперь редактор полностью готов к работе. Открываем нужную аудиозапись.

Необработанная аудиозапись в Audacity видна невооруженным глазом. Сильно выделяются пики, а общий уровень сигнала низкий.

В качественной записи общий уровень звука должен быть примерно одинаков, без резких скачков и всплесков. Зашкаливающие пики, мало того, что неприятно отдают в наушниках и колонках, так еще и будут мешать программе Audacity определить максимальный уровень сигнала. Удаляем всплески первым делом.

Удаление скачков и пиков

Заходим в Эффекты-Limiter (или Hard Limiter в зависимости от версии Audacity и плагина). На изображении показаны рекомендуемые параметры. Единственное, с чем стоить поиграться – Limit to (dB) – собственно он и указывает выше какого уровня пик будет срезаться. Конкретное значение дать затруднительно, многое зависит от характера звука, но я рекомендую от -2 до -6 dB.

Настройка плагина Limiter (Hard Limiter) в Audacity.
Главный параметр - Limit to (Db)

Сделайте несколько попыток. Контролируйте визуально, чтобы после применения фильтра срезались только скачки. Если упал уровень основной части, значит вы перестарались со значением Limit to (dB) . В настройках есть кнопка Preview , позволяющая сразу прослушать обработанный фрагмент.

После обработки фильтром Hard Limiter в Audacity. Все пики срезаны, их остатки не превышают средний уровень.

Нормализация

Заходим в Эффекты-Нормировка сигнала (Normalize). Данный плагин поднимает (или снижает) общий уровень всей записи сразу. Тихий сигнал станет громче, а громкий еще громче.

Настройка нормализации в Audacity. Минус один Децибел обычно дает хороший результат.

После применения нормализации. Обратите внимание, как вырос уровень, хотя характер сигнала почти не изменился.

Компрессор

Следующий плагин – Компрессор , – он один из самых важных. При этом виде обработки слабые и тихие звуки делаются громче, а слишком громкие – тише. То есть после проведения компрессии шепот и громкий вопль будут почти одинаковы по уровню, не придется крутить слайдер громкости. После окончания работы плагина вы визуально должны увидеть выравнивание сигнала.

Результат действия компрессора может сильно отличаться в каждом конкретном случае. Он может снизить или поднять общую громкость или же привести к появлению пиков (если не установлена галочка Компрессия по пикам в настройках плагина). Поэтому, если требуется, можно повторно применить Limiter или Нормализатор.

Посмотрите, как Компрессор изменил форму записи. Теперь и писк комара, и рев турбины имеют почти одинаковый уровень. Слушать такой аудиофайл комфортно.

Удаление шума

В этом разделе речь пойдет о негромком монотонном и непрерывном шуме, сопровождающем всю запись. Это может быть шелест вентилятора ноутбука или гул кондиционера, работающего неподалеку. Для чистки звука нам понадобится небольшой (3-10 сек) участок только с этим шумом (без голоса).

Программа проанализирует полученные характеристики, составит модель шумодава и попробует безболезненно изъять составляющие шума из общего спектра. Выделяем небольшой участок с шумом (и только с ним), далее запускаем плагин Эффекты-Подавление шума . Нажимаем Создать модель шума . Теперь можно применить фильтр на всей записи. Снимаем выделение (или выделяем весь файл целиком) и повторно запускаем плагин, но на этот раз выполняем саму чистку, нажав ОК . Дать конкретные рекомендации сложно. Сделайте несколько попыток с разными параметрами. Ползунок Подавление шума указывает насколько сильно снижать шум, а Sensivity указывает чувствительность – чем она выше, там сильнее может пострадать голос после чистки. Важно понимать, что предыдущий фильтр Компрессор поднимает слабые звуки, в том числе и шум. Поэтому запускать шумодав нужно перед компрессором.

Удаление вздохов, кашля и др

К сожалению фильтров, которые могли бы автоматически сделать удаление этих звуков нет (имеется в виду - без значительной потери качества основного сигнала), – это кропотливая ручная работа. Нужные участки выделяются курсором и либо заменяются тишиной (Создание–Создать тишину ), либо вырезаются (кнопкой Del ). В особых случаях, когда удаляемый участок звучит на фоне речи, его можно заглушить. Проблемные звуки все еще будут слышны, но они не будут привлекать внимание и портить речь.

Эквалайзер.

Даже если с уровнем сингала у вас все в порядке, голос говорящего может не понравится. Например, слишком басовитый или слишком писклявый. Иногда это результат применения некачественного или ненастроенного микрофона, и исправляется эквалайзером (Эффекты – Эквалайзер ). Не буду особенно вдаваться в настройки – это потребует отдельной статьи, скажу лишь, что на диаграмме кривыми показаны занижаемые или поднимаемые частоты.

Для простоты можете пользоваться пресетами, многие из которых полезны – Bass boost (усиление басов), Bass cut (удаление басов), Treble boost (усление высоких), Treble cut (удаление высоких), 100Hz Rumble (удаление самых низких составляющих баса – особенно хорошо подходит для живых выступлений, где микрофон дает слишком много басов при выдохе). Крутизна кривой показывает насколько сильно будет подниматься/опускаться определенная частота. По аналогии с предыдущими плагинами можно сразу прослушать результат обработки и что-то подстроить.

В данном примере срезаются частоты ниже 100 Гц

Сохранение полученного результата. Выполняется командой Экспорт аудио (пункт Экспорт выделенного аудио сохраняет только выделенный фрагмент). Далее выбираем формат – я использую MP3 и OGG. Последний хоть и имеет лучшее качество, но все же менее распространен, и может не воспроизводится старыми плеерами и бытовой техникой.

Для MP3 задается битрейт, чем он больше, тем лучше качество, но тем больше размер файла. Рекомендую использовать битрейт 192-320 kbps для стерео и в два раза меньший - для монофонической записи. Для OGG качество задается в условных единицах от 0 до 10.

В конце скажу, что статья дает лишь начальные знания по обработке звука, но даже проведя минимальную обработку и потратив всего лишь 20 минут, можно добиться существенного улучшения итогового качества звучания, приемлемого для прослушивания большой аудиторией. Через некоторое время, набрав опыта, вы будете без проблем выставлять нужные параметры плагинов на глаз.

Обычно при записи подкастов с участием одних и тех же голосов список фильтров почти не меняется. Можно воспользоваться встроенным руководством и детально изучить требуемые плагины, доведя обработку своего аудио до совершенства.

Инструкция

Откройте запись в программе Adobe Audition при помощи сочетания клавиш Ctrl+O. Можете воспользоваться командой Open («Открыть») из меню File («Файл»). Еще проще можно поступить, кликнув на файл, который нуждается в обработке, правой кнопкой мышки и выбрав в контекстном меню опцию «Открыть с помощью…». Выберите Adobe Audition в списке программ, в которых предлагается открыть файл.

Увеличьте громкость записи при помощи фильтра Normalize. Для этого откройте окно настроек фильтра командой Normalize process из группы Amplitude, которую после непродолжительных поисков можно обнаружить в меню Effects.Введите значение в процентах, до которого вам требуется увеличить громкость, в поле Normalize to. Нажмите кнопку ОК.

Прослушайте результат, нажав на клавишу «Пробел». Если вам кажется, что громкость увеличена недостаточно, отмените предыдущие действие сочетанием клавиш Ctrl+Z, снова откройте окно настроек фильтра Normalize и введите другое числовое значение.

Сохраните запись с увеличенной громкостью. Для этого воспользуйтесь командой Save As («Сохранить как») из меню File («Файл»). В открывшемся окне выберите место сохранения файла, в поле «Имя файла» введите имя файла.
Из раскрывающегося списка «Тип файла» выберите формат сохраняемого файла. Если ваш исходник был в формате mp3, вам будет предложено сохранить измененный файл в том же формате. Кликните по кнопке Options («Опции») и выберите из раскрывающегося списка битрейт сохраняемого файла. Вполне разумно будет сохранить запись с измененной громкостью с тем же битрейтом, что был в исходном файле, если, конечно, вам не нужно уменьшить вес файла. Битрейт исходного файла можно узнать при помощи команды File Info из меню File. То же самое получится, если воспользоваться сочетанием клавиш Ctrl+P.Выбрав битрейт сохраняемого файла, кликните по кнопке ОК в окне настроек кодека и по кнопке Save в окне настроек команды «Сохранить как».

Источники:

Как изменить громкость аудио (песни, mp3) в Adobe Audition.

Устраивая какое-либо торжественное мероприятие, мы нередко задумываемся о музыкальном сопровождении. Естественно, мы хотим, чтобы музыка, которую мы используем, звучала при этом настолько громко, насколько возможно, ведь именно она зачастую создает общий настрой события, и от правильно подобранной фонограммы зависит половина успеха мероприятия. Существует несколько вариантов увеличения громкости звуковой дорожки.

Вам понадобится

- усилитель
- акустическая система
- компьютер
- интернет

Инструкция

Первый вариант – самый простой. Отрегулируйте уровни эквалайзера таким образом, что либо все пункты будут стоять на максимальной отметке, либо отдельные частоты будут завышены. Используйте этот вариант в зависимости от того, какого эффекта вы хотите добиться – увеличения общей громкости либо отдельных частот.

В случае, если вы можете подключить к колонкам усилитель, используйте этот вариант. Усилитель в разы увеличивает громкость воспроизводимой фонограммы, но самое главное при этом – грамотно подобрать его в соответствии с мощностью вашей акустической системы. Проконсультируйтесь с продавцом для выбора наилучшего соответствия.

Также есть вариант программного увеличения громкости звуковой дорожки. Для этого вам нужен любой музыкальный редактор. Нормализуйте громкость трека до нужного уровня и проверьте нормальность звучания, после чего сохраните измененный трек на компьютере. Помните о том, что музыка должна звучать громко, но без помех и искажений.

Современные программные средства для проигрывания цифрового видео позволяют манипулировать параметрами воспроизведения (например, громкостью звука) в весьма широких пределах. Однако иногда этого оказывается недостаточно для комфортного просмотра. В этом случае сделать громче видео можно путем его обработки в видеоредакторе.

Вам понадобится

- файл видео;
- VirtualDub 1.9.9 (доступен для загрузки на virtualdub.org).

Инструкция

Загрузите в редактор VirtualDub. Воспользуйтесь горячими клавишами Ctrl+O, или же в главном меню кликните по пункту "Open video file..." раздела "File". В отобразившемся диалоге открытия файла перейдите в требуемую директорию. В листинге каталога выделите видеофайл. Кликните по кнопке "Открыть".

Активируйте режим прямого переноса данных потока видео. Откройте раздел "Video" главного меню и установите отметку на пункте "Direct stream copy". Это позволит избежать обработки при его сохранении, тем самым во много раз увеличив общую скорость обработки и предотвратив ухудшение качества изображения.

Включите режим полной обработки потока звуковых данных. В главном меню разверните пункт "Audio" и установите отметку на пункт "Full processing mode".

Сделайте видео громче. Откройте диалог "Audio volume", последовательно выбрав пункты меню "Audio" и "Volume...". В диалоге установите в активное состояние переключатель "Adjust volume of audio channels". Затем путем перемещения вправо ползунка, расположенного ниже, выберите требуемый уровень звука относительно исходного (текущее значение в децибелах и процентах отображается справа от ползунка). Нажмите кнопку "OK".

Узнайте текущие характеристики звукового потока данных. Кликните по пунктам "Audio" и "Conversion..." либо нажмите Ctrl+N. Запомните значение частоты семплирования, приведенное в скобках после надписи "No change", расположенной в группе элементов управления "Sampling rate".

Настройте параметры кодирования звукового потока. В главном меню выберите пункты "Audio" и "Compression...". В диалоге "Select audio compression" в левом списке выделите предпочитаемый кодировщик. В правом списке отобразится листинг доступных режимов кодирования. Выберите один из режимов со значением частоты семплирования, равным значению, полученному в пятом шаге. Нажмите кнопку "OK".

Сохраните видео. На клавиатуре нажмите F7, либо выберите в меню "File" и "Save as AVI...". Укажите имя и путь для сохранения файла. Кликните по кнопке "Сохранить".

Дождитесь окончания записи видео. Если объем аудиоданных достаточно большой, то процесс может занять достаточно много времени. Прошедшее и расчетное время сохранения будет отображено в диалоге "VirtuaDub Status".

Видео по теме

Обратите внимание

Слишком сильное повышение уровня звука может привести к его искажению в результирующем видео.

При прослушивании любимой музыки порой хочется, чтобы она звучала как можно громче даже если она поставлена на максимальной громкости. Вы можете увеличить громкость воспроизведения, совершив несколько простых шагов.

Инструкция

Используйте настройки эквалайзера для максимизации громкости воспроизведения. Они присутствуют практически в каждом плеере и слушат для того, чтобы настроить звучание согласно типу воспроизводимого трека. Максимизировав все параметры эквалайзера, вы сможете сделать громкость настолько большой, насколько это возможно.

Используйте аудио редактор для изменения громкости трека. Наилучшим вариантом будет использование Sony Sound Forge либо Adobe Audition. Эти редакторы имеют наилучшее качество компрессии. Используйте эффекты нормализации и повышения громкости. Следите за тем, чтобы при изменении громкости не было потеряно благозвучие. Вы можете также откалибровать трек согласно тем частотам, которые должны воспроизводиться наиболее громко. Используйте эффект "Графический эквалайзер". Увеличьте те частоты, которые должны быть увеличены, после чего сохраните получившийся результат.

Для обработки нескольких файлов используйте программу Mp3Gain. С ее помощью вы можете увеличить громкость у нескольких трека. Для этого достаточно установить эту программу и после запуска добавить для обработки те файлы, которые вы хотите обработать. Имейте ввиду, что данный редактор не позволяет отменить сделанные изменения, поэтому лучше всего воспользоваться вариантом "Сохранить копию". Таким образом, все треки, которые вы отредактируете, останутся без изменений, и на выходе вы получите их копии с увеличенной громкостью.

Большинство наушников, идущих в комплекте с аудиоплеерами, имеют сопротивление в 32 Ом. Ищите те наушники, которые имеют сопротивление в 16 Ом, так как они позволяют воспроизводить треки с более высокой громкостью. Также вы можете использовать наушники с шумоподавлением. С их помощью внешние звуки будут слышны в наименьшей степени, поэтому звучание музыки будет более четким.

Видео по теме

Изменение громкости звука в файле формата avi является достаточно простой операцией. Ее можно выполнить при помощи любого видеоредактора, умеющего работать с файлами avi или программы-конвертера, в которой есть звуковые фильтры.

В «Фейсбуке» нам задали вопрос:
«Для работы с текстом мне нужно расшифровать 3 часа диктофонной записи. Пробовал загрузить аудиофайл с картинкой в YouTube и воспользоваться их расшифровщиком текста, но получается какая-то абракадабра. Подскажите, как можно решить это технически? Спасибо!
Александр Коновалов»

Александр, простое техническое решение есть – но результат будет зависеть исключительно от качества вашей записи. Поясню, о каком качестве речь.

За последние годы технологии распознавания русской речи сильно продвинулись вперед. Процент ошибок распознавания снизился до такого уровня, что иной текст стало проще «наговорить» в специальном мобильном приложении или интернет-сервисе, откорректировав вручную отдельные «очепятки» – чем целиком набирать весь текст на клавиатуре.

Но, чтобы искусственный интеллект системы распознавания смог проделать свою работу – пользователь должен проделать свою. А именно: говорить в микрофон четко и размеренно, избегать сильных фоновых шумов, по возможности использовать стереогарнитуру или выносной микрофон, прикрепленный к петлице (для качества распознавания важно, чтобы микрофон все время находился на одном расстоянии от губ, а вы сами говорили с одинаковой громкостью). Естественно, чем выше класс аудиоустройства – тем лучше.

Несложно придерживаться этих условий, если вы, вместо того, чтобы обращаться к интернет-сервису распознавания речи напрямую, применяете в качестве промежуточного устройства-посредника диктофон. К слову, такой «персональный секретарь» особенно незаменим, когда у вас нет доступа к онлайну. Естественно, лучше использовать хотя бы недорогой профессиональный диктофон, нежели записывающее устройство, встроенное в дешевый mp3-плеер или смартфон. Это даст гораздо больше шансов «скормить» полученные записи сервису распознавания речи.

Сложно, но можно уговорить соблюдать эти правила собеседника, у которого вы берете интервью (еще один совет: если у вас нет в комплекте выносного микрофона на прищепке – хотя бы держите диктофон рядом с собеседником, а не с собой).

А вот «законспектировать» на нужном уровне в автоматическом режиме конференцию или семинар – дело, на мой взгляд, практически нереальное (ведь вы не сможете контролировать речь спикеров и реакцию слушателей). Хотя достаточно интересный вариант: превращение в текст профессионально записанных аудиолекций и аудиокниг (если на них не накладывалась фоновая музыка и шумы).

Будем надеяться, что качество вашей диктофонной записи – достаточно высокое, чтобы ее удалось расшифровать в автоматическом режиме .

Если же нет – практически при любом качестве записи вы сможете провести расшифровку в полуавтоматическом режиме .

Кроме того, в ряде ситуаций наибольшую экономию времени и сил вам принесет, как ни парадоксально, расшифровка в ручном режиме . Точнее, тот ее вариант, который сам я использую уже с десяток лет. 🙂

Итак, по порядку.

1. Автоматическое распознавание речи

Многие советуют расшифровывать диктофонные записи на YouTube. Но этот метод заставляет пользователя тратить время на этапе загрузки аудиофайла и фоновой картинки, а затем – в ходе очистки итогового текста от меток времени. Между тем, это время несложно сэкономить. 🙂

Вы можете распознавать аудиозаписи прямо со своего компьютера, воспользовавшись возможностями одного из интернет-сервисов, работающих на движке распознавания Google (рекомендую Speechpad.ru или Speechlogger.com). Все, что нужно – проделать маленький трюк: вместо вашего голоса, воспроизводимого с микрофона, перенаправить на сервис аудиопоток, воспроизводимый вашим компьютерным проигрывателем.

Этот трюк называется программным стерео микшером (его обычно применяют для записи музыки на компьютере или ее трансляции с компьютера в интернет).

Стерео микшер входил в состав Windows XP – но был удален разработчиками из более поздних версий этой операционной системы (говорят, в целях защиты авторских прав: чтобы геймеры не воровали музыку из игр и т.п.). Однако стерео микшер нередко поставляется вместе с драйверами аудиокарт (например, карт Realtec, встраиваемых в материнскую плату). Если вы не найдете стерео микшер на своем ПК с помощью предлагаемых ниже скриншотов – попробуйте переустановить аудиодрайверы с CD-диска, который шел в комплекте с материнской платой – либо с сайта ее производителя.

Если и это не поможет – установите на компьютер альтернативную программу. Например – бесплатный VB-CABLE Virtual Audio Device : использовать его рекомендует владелец вышеупомянутого сервиса Speechpad.ru.

Первым шагом вы должны отключить для использования в режиме записи микрофон и включить вместо него стерео микшер (либо виртуальный VB-CABLE).

Для этого нажмите по иконке громкоговорителя в правом нижнем углу (возле часов) – либо выберите раздел «Звук» в «Панели управления». Во вкладке «Запись» открывшегося окна щелкните правой кнопкой мыши и поставьте птички напротив пунктов «Показать отключенные устройства» и «Показать отсоединенные устройства». Нажмите правой кнопкой по иконке микрофона и выберите пункт «Отключить» (вообще, отключите все устройства, отмеченные зеленым значком).

Нажмите правой кнопкой по иконке стерео микшера и выберите пункт «Включить». На иконке появится зеленый значок, что будет означать, что стерео микшер стал устройством по умолчанию.

Если вы решили использовать VB-CABLE – то тем же способом включите его во вкладке «Запись».

А также – во вкладке «Воспроизведение».

Второй шаг. Включите аудиозапись в любом проигрывателе (если нужно расшифровать аудиодорожку видеоролика – можно запустить и видеопроигрыватель). Параллельно загрузите в браузере Chrome сервис Speechpad.ru и нажмите в нем кнопку «Включить запись». Если запись достаточно высокого качества, вы увидите, как сервис на глазах превращает речь в осмысленный и близкий к оригиналу текст. Правда, без знаков препинания, которые вам придется расставить самостоятельно.

В качестве аудиопроигрывателя советую использовать AIMP, о котором будет подробнее рассказано в третьей подглавке. Сейчас лишь отмечу, что этот плеер позволяет замедлить запись без искажений речи, а также исправить некоторые другие погрешности. Это может несколько улучшить распознавание не слишком качественной записи. (Иногда даже советуют предварительно подвергать плохие записи обработке в профессиональных программах редактирования звука. Однако, на мой взгляд, это слишком трудоемкая задача для большинства пользователей, которые гораздо быстрее наберут текст вручную. 🙂)

2. Полуавтоматическое распознавание речи

Тут все просто. Если запись некачественная и распознавание «захлебывается» либо сервис выдает слишком много ошибок – помогите делу сами, «встроившись» в цепочку: «аудиоплеер – диктор – система распознавания».

Ваша задача: прослушивать в наушниках записанную речь – и параллельно надиктовывать ее через микрофон интернет-сервису распознавания. (Естественно, вам не нужно, как в предыдущем разделе, переключаться в списке записывающих устройств с микрофона на стерео микшер или виртуальный кабель). А в качестве альтернативы упоминавшимся выше интернет-сервисам можете использовать смартфонные приложения вроде бесплатной «Яндекс.Диктовки» либо функцию диктовки в iPhone с операционной системой iOS 8 и выше.

Отмечу, что в полуавтоматическом режиме вы имеете возможность сразу диктовать знаки препинания, расставлять которые в автоматическом режиме сервисы пока не способны.

Если у вас получится диктовать синхронно с воспроизведением записи на плеере – предварительная расшифровка займет практически столько же времени, сколько и сама запись (не считая последующих затрат времени на исправление орфографических и грамматических ошибок). Но даже работа по схеме: «прослушать фразу – надиктовать – прослушать фразу – надиктовать», – может вам дать неплохую экономию времени по сравнению с традиционным набором текста.

В качестве аудиоплеера рекомендую использовать тот же AIMP. Во-первых, с его помощью вы можете замедлить воспроизведение до скорости, на которой вам будет комфортно работать в режиме синхронной диктовки. Во-вторых, этот плеер умеет возвращать запись на заданное количество секунд: это бывает необходимо, чтобы лучше расслышать неразборчивую фразу.

3. Расшифровка диктофонной записи в ручном режиме

Вы можете установить на практике, что слишком быстро устаете от диктовки в полуавтоматическом режиме. Или делаете вместе с сервисом слишком много ошибок. Или, благодаря навыкам быстрого набора, гораздо легче создаете готовый исправленный текст на клавиатуре, чем с помощью диктовки. Или ваш диктофон, микрофон на стереогарнитуре, аудиокарта не обеспечивают приемлемое для сервиса качество звука. А может, у вас просто нет возможности диктовать вслух в своем рабочем или домашнем офисе.

Во всех этих случаях вам поможет мой фирменный способ расшифровки вручную (прослушиваете запись в AIMP – набираете текст в Word). С его помощью вы превратите запись в текст быстрее, чем это сделают многие профессиональные журналисты, чья скорость набора на клавиатуре аналогична вашей! При этом вы потратите гораздо меньше, чем они, сил и нервов. 🙂

Из-за чего, в основном, теряются силы и время в ходе расшифровки аудиозаписей традиционным способом? Из-за того, что пользователь совершает очень много лишних движений.

Пользователь постоянно протягивает руку то к диктофону, то к клавиатуре компьютера. Остановил воспроизведение – набрал прослушанный отрывок в текстовом редакторе – снова включил воспроизведение – отмотал неразборчивую запись назад – и т.д., и т.п.

Использование обычного программного плеера на компьютере мало облегчает процесс: пользователю приходится постоянно сворачивать/разворачивать Word, останавливать/запускать плеер, да еще елозить туда-сюда слайдером плеера, чтобы найти неразборчивый фрагмент, а затем вернуться к последнему прослушанному месту в записи.

Чтобы сократить эти и другие потери времени, специализированные IT-компании разрабатывают программные и аппаратные транскрайберы. Это достаточно дорогие решения для профессионалов – тех же журналистов, судебных стенографистов, следователей и т.д. Но, собственно, для наших целей требуются только две функции:

возможность замедлить воспроизведение диктофонной записи без ее искажения и понижения тона (замедлить скорость воспроизведения позволяют многие плееры – но, увы, при этом человеческий голос превращается в монструозный голос робота, который сложно воспринимать на слух продолжительное время);
возможность остановить запись или откатить ее на заданное количество секунд и вернуть обратно, не останавливая набор текста и не сворачивая окно текстового редактора.

В свое время я протестировал десятки аудиопрограмм – и нашел лишь два доступных платных приложения, отвечающих этим требованиям. Приобрел одно из них. Поискал еще немного для своих дорогих читателей 🙂 – и нашел замечательное бесплатное решение – проигрыватель AIMP , которым сам пользуюсь до сих пор.

«Войдя в настройки AIMP, найдите раздел Глобальные клавиши и перенастройте Стоп/Пуск на клавишу Эскейп (Esc). Поверьте, это наиболее удобно, поскольку не придется задумываться и палец не попадет случайно на другие клавиши. Пункты «Немного перейти назад» и «Немного перейти вперед» настройте, соответственно, на клавиши Ctrl + клавиши курсора назад/вперед (у вас на клавиатуре есть четыре клавиши со стрелками – выберите две из них). Эта функция нужна, чтобы заново прослушать последний фрагмент или перейти немного вперед.

Затем, вызвав эквалайзер, вы можете уменьшить значения «Скорость» и «Темп» – и увеличить значение «Питч». При этом Вы заметите, что скорость воспроизведения замедлится, но высота голоса (если хорошо подберете значение «Питч») – не изменится. Подберите эти два параметра так, чтобы вы практически синхронно успевали набирать текст, лишь изредка останавливая его.

Когда все будет настроено, набор будет занимать у вас меньше времени, и руки будут уставать меньше. Вы сможете расшифровывать аудиозапись спокойно и комфортно, практически не отрывая пальцев от набора текста на клавиатуре».

Могу только добавить к сказанному, что, если запись не очень качественная – вы можете попытаться улучшить ее воспроизведение, экспериментируя с другими настройками в «Менеджере звуковых эффектов» AIMP.

А количество секунд, на которое вам будет наиболее удобно перемещаться по записи назад или вперед с помощью горячих клавиш – установите в разделе «Плеер» окна «Настройки» (которое можно вызвать нажатием горячих клавиш «Ctrl + P»).

Желаю сэкономить побольше времени на рутинных задачах – и плодотворно использовать его для главных дел! 🙂 И не забудьте включить микрофон в списке записывающих устройств, когда соберетесь поговорить по скайпу! 😉

3 способа расшифровки диктофонной записи: распознавание речи, диктовка, ручной режим