Google представила технологию распознавания музыки нового поколения

С выходом Pixel 2 Google представила функцию Now Playing, которая способна распознавать музыку, играющую в фоне. Now Playing постоянно анализирует окружающие звуки, не требует подключения к Интернету, вся база треков хранится на самом устройстве, основной особенностью новой функции стало использование нейросетей для идентификации треков. В блоге Google AI компания сообщила о том, что внедрила подобную нейросеть в распознавание Sound Search, расположенное на стороне сервера и доступное каждому.

Google представила технологию распознавания музыки нового поколения. Фото.

Теперь, спросив у ассистента “Окей Google, какая это песня?”, можно получить такой же быстрый и точный ответ, как и в случае с Now Playing:

Google представила технологию распознавания музыки нового поколения. Фото.

Для распознавания в Now Playing компания использует отпечаток записи окружающего пространства, после чего подобный отпечаток сравнивается с отпечатками в базе данных смартфона. В Now Playing хранится тысячи песен, база данных постоянно обновляется, добавляются новые треки, а непопулярные удаляются. Это создает некоторые ограничения.

В случае с Sound Search база данных в 1000 раз больше, что позволяет более точно идентифицировать трек и попросту с большей долей вероятности выводить хоть какой-либо результат.

Под отпечатком понимается нечто подобное:

Google представила технологию распознавания музыки нового поколения. Фото.

У нас имеется запись длиной в 9 секунд, полученная с помощью сверточных нейронных сетей, которая разбивается на 2-секундные куски с интервалом в 1 секунду. Тем временем в базе данных хранятся точно такие же отпечатки. Now Playing с помощью двухфазного алгоритма сравнивает отпечаток с базой данных. На первой фазе с помощью гибрид пространственного разбиения и векторного разбиения анализируется вся база на поиск более менее похожих треков. На втором этапе среди кандидатов происходит более глубокий анализ каждого двухсекундного куска.

Из-за слишком большой базы в Sound Search разработчики доработали технологию, в 4 раза увеличив размер нейросети, отрезки сократили до 1 секунды с интервалом в 0,5 секунды. К слову, нечто подобное в распознавании голоса использует компания Yandex.

Мнением делитесь в Telegram-чате или ниже в комментариях.

Теги
Лонгриды для вас
Microsoft окончательно прекратила поддержку Windows 10. Что будет с компьютерами?

Сегодня компания Microsoft официально завершила поддержку Windows 10. Это значит, что операционная система, вышедшая почти десять лет назад, больше не будет получать обновления безопасности, исправления ошибок и техническую поддержку. Например, Microsoft уже предупредила, что любые недавно обнаруженные уязвимости больше не будут закрываться. Что делать пользователям, которые не могут установить актуальную Windows 11?

Читать далее
Можно ли пользоваться WhatsApp* в России в 2025 году по закону

В 2025 году WhatsApp* в России оказался в так называемой “серой зоне”: он вроде бы работает, хотя и официально заблокирован силами РКН. При этом его разработчик (компания Meta*) признан экстремистской организацией. Из-за этого у многих возникает логичный вопрос: законно ли вообще пользоваться WhatsApp* или лучше от него отказаться, чтобы не было проблем? Мы разобрались, могут ли оштрафовать просто за установленный WhatsApp* и стоит ли его удалять со смартфона.

Читать далее
Почему камера Pixel 9 снимает так плохо, а Google ничего с этим не делает

Пользователи камер смартфонов привыкли считать серию Google Pixel эталоном мобильной фотографии. Реалистичные цвета, точная передача тона кожи, мгновенная обработка и узнаваемый «почерк» снимков сделали эти устройства любимцами тех, кто ищет естественные кадры без лишней постобработки. Но с выходом Google Pixel 9 эта репутация пошатнулась. Вместо привычных сочных изображений смартфон стал выдавать безжизненные, холодные фото, на которые многим просто неприятно смотреть.

Читать далее
Новости партнеров