Как я пробовал написать статью голосовым вводом, и что из этого получилось

Смартфоны уже давно стали чем-то большим, чем просто телефоны. Мы каждый день используем наш гаджет для переписки с друзьями, просмотра видеороликов на YouTube, общения в Telegram, и при этом сегодня телефон для многих может стать заменой полноценного компьютера. Я не шучу, на своем примере я готов показать, как нейронные сети от Google способны за меня писать статью. До недавнего времени я скептически относился к голосовому вводу, который встроен в клавиатуру gBoard, однако я решил попробовать и крайне удивился тому, насколько качественно клавиатура способна распознавать мою речь. В данном материале мы рассмотрим, как же компании удалось создать настолько качественное распознавание речи, и как при этом данная функция может помочь нам в работе.

Как я написал статью голосовым вводом

Всё это время я писал статьи с помощью своего ноутбука или PC. Мне всегда выражать свои мысли с помощью голоса было легче, чем с помощью пальцев рук. Это делает процесс выражения мыслей более естественным, более плавным (good flow) и более быстрым. Ввод с помощью клавиатуры очень часто приводил к ситуациям, когда я терял ход мыслей. Уже сейчас я готов опубликовать вторую статью продиктованную своему телефону, ну и мне не обязательно при этом обладать быстрой слепой десятипальцевой печатью (хочу отметить, что печатаю я неплохо). Возможность написания материала голосом вызывает у меня ощущение радости от того, насколько сильно продвинулись технологии вперёд. Если раньше я мог писать материал за час-два своего времени, сейчас мне удается уменьшить эти показатели в 2 раза просто потому, что выражение мыслей голосом происходит быстрее, чем с помощью набора текста.

Я изучил, как работает голосовой ввод gBoard и, по правде говоря, был удивлён. Ранее компания использовала достаточно старые способы распознавания речи, они были основаны на модели Gaussian Mixture Model. Данная модель использовалась в течение 30 лет. Однако всё изменилось в 2012 году, когда начали становиться популярными нейронные сети. Конечно, они существовали и раньше, однако именно с 2012 года начался новый этап в развитии. Стали использоваться глубокие нейронные сети, рекуррентные и другие. И именно последний тип нейронных сетей лежит в основе технологии распознавания голоса. В настоящее время Google использует архитектуру нейронных сетей Recurrent Neural Network Transducers (RNN-T) для распознавания речи. А уже сейчас обладатели смартфонов Pixel могут использовать голосовой ввод gBoard без Интернета. Этого удалось добиться несколько этапами оптимизации, одним из которых стала финальная компрессия, благодаря чему размер изначальной модели с 2 гигабайт сократился до 80 мегабайт. Предлагаю обсудить это в Телеграм.

Читайте также: Почему стоит присмотреться к Google Pixel 1

В традиционных системах распознавания речи существуют несколько компонентов: модель, которая разбивает аудио на части длинной в 10 миллисекунд — их называют фонемами, модель произношения, которая соединяет фонемы вместе, образуя слова, а также языковая модель, которая предлагает пользователю готовые фразы. В ранних системах данные компоненты работали независимо друг от друга. Примерно в 2014 году исследователи начали фокусироваться на тренировке общей нейронной сети, чтобы на вход подать один аудиофайл, а на выходе получить готовое предложение. Такой sequence-to-sequence способ позволил сделать распознавание более точным, однако он работал лишь после полного ввода предложения. Между тем существовала технология CTC, она позволила уменьшить задержку в распознавании, на тот момент это стало серьезным шагом на пути к созданию рекуррентных нейронных сетей с преобразователями RNN-T. С этого момента стало возможным точное распознавание в момент непосредственного ввода речи.

Recurrent Neural Network Transducers

Какие выводы можно сделать из всего этого? Безусловно, уже сейчас можно использовать голосовой ввод для точного распознавания русского текста, и раньше так хорошо он не работал. Пока, к сожалению, нейросеть не способна понимать, где ставить пунктуационные символы, однако само распознавание достаточно точное, что внушает надежду на то, что в будущем нам предложат еще больше возможностей. Не исключаю, что уже в ближайшие два года Google адаптирует свою новую нейросеть для работы с русским языком в оффлайн-режиме. Пока же мы будем довольствоваться тем, что имеем.

Делитесь мнением в комментариях с помощью языкового ввода.

По материалам Google

Теги
Лонгриды для вас
Safari
Разработчик Google рассказал, что не так с Safari в iOS 15 и почему Chrome лучше

На презентации iOS 15, которая прошла этим летом, Apple представила обновлённый Safari. Помимо новых защитных инструментов и повышения производительности браузер получил серьёзный редизайн. Дизайнеры компании решились на небывалый доселе шаг – они взяли и перенесли весь омнибокс (так называется вся верхяя панель с адресной строкой и другими элементами управления) вниз, объяснив это заботой об удобстве пользователей. По сути, это логично, учитывая, что экраны наших смартфонов не становятся меньше. Но в Google уже давно поняли, что эта идея ошибочна.

Читать далее
Общий буфер обмена
Как настроить общий буфер обмена между Android и Windows

Несмотря на то что я всегда относился с большим скепсисом к преимуществам единой экосистемы, пересев с Android на iOS, я на себе ощутил все преимущества этого явления. Одной из крутейших фишек, которую предлагает Apple, заключается в том, что iPhone и Mac, по сути, можно использовать как составные части единого целого. Я могу принять звонки, которые поступают мне на iPhone, у себя на компьютере и могу скопировать что-то на одном устройстве, а вставить на другом. На Android ничего такого никогда не было. Но усилиями сторонних разработчиков схожие функции появятся и здесь.

Читать далее
Зачем смартфонам стилус

Компания Samsung продвигает идею использования стилуса с мобильными устройствами еще с самой первой линейки смартфонов Galaxy Note. Выход Galaxy Note и S Pen в 2011 году положил начало новой категории мобильных устройств: фаблеты. "Сейчас такие слова в приличном обществе не произносят!" - так говорит наш Главный редактор. Параллельно с этим развивалась идея стилусов в комуникаторах на Mobile Phone, но там это было обусловлено резистивными экранами, которые реагировали не на прикосновение, а на нажатие.

Читать далее
4 комментария
  1. DrMeth

    Да ладно, ощущение, что тут почти все статьи так и написаны с голоса и потом не прочитаны. Вобще давно пора отдать писать статьи Гуглу самостоятельно, особенно хуже не станет. 😉

    • Олег Кусов

      Лол.

      • DrMeth

        Рад повеселить. Давайте больше позитива!

  2. KoNeko

    Голосовой ввод удобный для общения., Небольшая статья не очень подходит, потому что есть большая проблема? Коктебель

Новый комментарий