Как я пробовал написать статью голосовым вводом, и что из этого получилось

Смартфоны уже давно стали чем-то большим, чем просто телефоны. Мы каждый день используем наш гаджет для переписки с друзьями, просмотра видеороликов на YouTube, общения в Telegram, и при этом сегодня телефон для многих может стать заменой полноценного компьютера. Я не шучу, на своем примере я готов показать, как нейронные сети от Google способны за меня писать статью. До недавнего времени я скептически относился к голосовому вводу, который встроен в клавиатуру gBoard, однако я решил попробовать и крайне удивился тому, насколько качественно клавиатура способна распознавать мою речь. В данном материале мы рассмотрим, как же компании удалось создать настолько качественное распознавание речи, и как при этом данная функция может помочь нам в работе.

Как я написал статью голосовым вводом

Всё это время я писал статьи с помощью своего ноутбука или PC. Мне всегда выражать свои мысли с помощью голоса было легче, чем с помощью пальцев рук. Это делает процесс выражения мыслей более естественным, более плавным (good flow) и более быстрым. Ввод с помощью клавиатуры очень часто приводил к ситуациям, когда я терял ход мыслей. Уже сейчас я готов опубликовать вторую статью продиктованную своему телефону, ну и мне не обязательно при этом обладать быстрой слепой десятипальцевой печатью (хочу отметить, что печатаю я неплохо). Возможность написания материала голосом вызывает у меня ощущение радости от того, насколько сильно продвинулись технологии вперёд. Если раньше я мог писать материал за час-два своего времени, сейчас мне удается уменьшить эти показатели в 2 раза просто потому, что выражение мыслей голосом происходит быстрее, чем с помощью набора текста.

Я изучил, как работает голосовой ввод gBoard и, по правде говоря, был удивлён. Ранее компания использовала достаточно старые способы распознавания речи, они были основаны на модели Gaussian Mixture Model. Данная модель использовалась в течение 30 лет. Однако всё изменилось в 2012 году, когда начали становиться популярными нейронные сети. Конечно, они существовали и раньше, однако именно с 2012 года начался новый этап в развитии. Стали использоваться глубокие нейронные сети, рекуррентные и другие. И именно последний тип нейронных сетей лежит в основе технологии распознавания голоса. В настоящее время Google использует архитектуру нейронных сетей Recurrent Neural Network Transducers (RNN-T) для распознавания речи. А уже сейчас обладатели смартфонов Pixel могут использовать голосовой ввод gBoard без Интернета. Этого удалось добиться несколько этапами оптимизации, одним из которых стала финальная компрессия, благодаря чему размер изначальной модели с 2 гигабайт сократился до 80 мегабайт. Предлагаю обсудить это в Телеграм.

Читайте также: Почему стоит присмотреться к Google Pixel 1

В традиционных системах распознавания речи существуют несколько компонентов: модель, которая разбивает аудио на части длинной в 10 миллисекунд — их называют фонемами, модель произношения, которая соединяет фонемы вместе, образуя слова, а также языковая модель, которая предлагает пользователю готовые фразы. В ранних системах данные компоненты работали независимо друг от друга. Примерно в 2014 году исследователи начали фокусироваться на тренировке общей нейронной сети, чтобы на вход подать один аудиофайл, а на выходе получить готовое предложение. Такой sequence-to-sequence способ позволил сделать распознавание более точным, однако он работал лишь после полного ввода предложения. Между тем существовала технология CTC, она позволила уменьшить задержку в распознавании, на тот момент это стало серьезным шагом на пути к созданию рекуррентных нейронных сетей с преобразователями RNN-T. С этого момента стало возможным точное распознавание в момент непосредственного ввода речи.

Recurrent Neural Network Transducers

Какие выводы можно сделать из всего этого? Безусловно, уже сейчас можно использовать голосовой ввод для точного распознавания русского текста, и раньше так хорошо он не работал. Пока, к сожалению, нейросеть не способна понимать, где ставить пунктуационные символы, однако само распознавание достаточно точное, что внушает надежду на то, что в будущем нам предложат еще больше возможностей. Не исключаю, что уже в ближайшие два года Google адаптирует свою новую нейросеть для работы с русским языком в оффлайн-режиме. Пока же мы будем довольствоваться тем, что имеем.

Делитесь мнением в комментариях с помощью языкового ввода.

По материалам Google

Теги
Лонгриды для вас
Сколько стоит хорошая защита для смартфона

Часто мы покупаем смартфон и совсем не задумываемся о том, что помимо самого гаджета нам придется докупать к нему кучу разных аксессуаров. Чехол и стекло - минимум, без которого современному владельцу смартфона на Android просто не обойтись. Но стоит ли покупать дорогое стекло на смартфон? Чем оно отличается от дешевого? А может быть вообще лучше купить гидрогелевую пленку? С чехлами вопросов возникает не меньше. Казалось бы, на просторах интернета можно найти самые разные решения на любой вкус и кошелек, но вопросы все равно остаются.

Читать далее
Часы YHE
Это первые смарт-часы с тонометром. Они измеряют давление с помощью манжеты

Год назад Samsung первой из массового сегмента представила умные часы с функцией измерения давления. Несмотря на то что они требовали регулярной калибровки с помощью медицинского тонометра, это был настоящий прорыв. Ведь при всех допущениях гаджет проводил довольно точные измерения, позволяя пользователям контролировать своё давление в течение всего дня. Единственный недостаток часов заключался в применяемой методике измерения. В отсутствие манжеты им приходилось ориентироваться на силу кровотока, используя обычный пульсометр и специальное ПО. Но теперь на рынке появились смарт-часы с полноценным медицинским тонометром.

Читать далее
Зачем в 2021 нужен кнопочный телефон

Каких только смартфонов сейчас нет. Хотите блок на 5 камер - без проблем. Желаете заиметь основной модуль на 100 МП - легко. Перечислять на самом деле можно очень долго. Тем не менее многие пользователи до сих пор задаются вопросом покупки простого кнопочного телефона из 2005-го. Причем у тех, кто так считает, есть вполне себе серьезные аргументы, имеющие право на существование. Сегодня предлагаю обсудить чем кнопочный телефон лучше смартфона и зачем нужна звонилка в современном мире, где полным-полно гаджетов поинтереснее.

Читать далее
4 комментария
  1. DrMeth

    Да ладно, ощущение, что тут почти все статьи так и написаны с голоса и потом не прочитаны. Вобще давно пора отдать писать статьи Гуглу самостоятельно, особенно хуже не станет. 😉

    • Олег Кусов

      Лол.

      • DrMeth

        Рад повеселить. Давайте больше позитива!

  2. KoNeko

    Голосовой ввод удобный для общения., Небольшая статья не очень подходит, потому что есть большая проблема? Коктебель

Новый комментарий