Google представила технологию распознавания музыки нового поколения

С выходом Pixel 2 Google представила функцию Now Playing, которая способна распознавать музыку, играющую в фоне. Now Playing постоянно анализирует окружающие звуки, не требует подключения к Интернету, вся база треков хранится на самом устройстве, основной особенностью новой функции стало использование нейросетей для идентификации треков. В блоге Google AI компания сообщила о том, что внедрила подобную нейросеть в распознавание Sound Search, расположенное на стороне сервера и доступное каждому.

Google представила технологию распознавания музыки нового поколения. Фото.

Теперь, спросив у ассистента “Окей Google, какая это песня?”, можно получить такой же быстрый и точный ответ, как и в случае с Now Playing:

Google представила технологию распознавания музыки нового поколения. Фото.

Для распознавания в Now Playing компания использует отпечаток записи окружающего пространства, после чего подобный отпечаток сравнивается с отпечатками в базе данных смартфона. В Now Playing хранится тысячи песен, база данных постоянно обновляется, добавляются новые треки, а непопулярные удаляются. Это создает некоторые ограничения.

В случае с Sound Search база данных в 1000 раз больше, что позволяет более точно идентифицировать трек и попросту с большей долей вероятности выводить хоть какой-либо результат.

Под отпечатком понимается нечто подобное:

Google представила технологию распознавания музыки нового поколения. Фото.

У нас имеется запись длиной в 9 секунд, полученная с помощью сверточных нейронных сетей, которая разбивается на 2-секундные куски с интервалом в 1 секунду. Тем временем в базе данных хранятся точно такие же отпечатки. Now Playing с помощью двухфазного алгоритма сравнивает отпечаток с базой данных. На первой фазе с помощью гибрид пространственного разбиения и векторного разбиения анализируется вся база на поиск более менее похожих треков. На втором этапе среди кандидатов происходит более глубокий анализ каждого двухсекундного куска.

Из-за слишком большой базы в Sound Search разработчики доработали технологию, в 4 раза увеличив размер нейросети, отрезки сократили до 1 секунды с интервалом в 0,5 секунды. К слову, нечто подобное в распознавании голоса использует компания Yandex.

Мнением делитесь в Telegram-чате или ниже в комментариях.

Теги
Лонгриды для вас
Когда выйдет ультратонкий HUAWEI Mate 70 Air, и как он изменит индустрию

Линейка Mate от HUAWEI традиционно ассоциируется с мощными камерами и выразительным дизайном, а модели с приставкой Air у других производителей обычно делают акцент на минимализме и тонком корпусе. Однако новые утечки показывают, что Mate 70 Air может кардинально изменить это правило, превратившись в полноценный флагман в компактном форм-факторе.

Читать далее
Что означает версия памяти UFS в смартфоне. Какая она должна быть и почему это важно

Память UFS (Universal Flash Storage), проще говоря, встроенная память — это не просто место для хранения приложений и фотографий, а важнейший компонент, напрямую влияющий на быстродействие смартфона. За последние годы стандарт прошёл путь от относительно медленного UFS 2.0 до сверхбыстрого UFS 4.0 и даже новейшего UFS 4.1, каждое поколение которого кратно увеличивало производительность. Но мало кто обращает на это внимание, хотя именно это показатель влияет на скорость работы смартфона. Это важно не только для сохранения фотографий и передачи данных, но и для ускорения запуска приложений.

Читать далее
У Samsung появилась реклама даже в холодильниках

Несколько дней назад Samsung официально запустила пилотную программу размещения рекламы на дисплеях умных холодильников Family Hub. Может показаться, что в этом нет ничего особенного, но представьте, что выкупили холодильник примерно за 200-250 тысяч рублей, а вам показывают ролики торговых сетей и конкретных продуктов. Думаю, вы будете не очень эти довольны. Тем не менее, такая ситуация наблюдает. Почему так происходит и что сподвигло корейскую компанию на такое решение.

Читать далее
Новости партнеров