кеч voice что делает

06.11.202316.03.2023 admin 0 Comments

Обзор технологии шумоподавления Nvidia RTX Voice

В конце апреля компания Nvidia представила технологию шумоподавления RTX Voice, призванную улучшить качество звука во время голосового общения в разного рода мессенджерах. По сообщениям разработчиков, новый продукт использует искусственный интеллект для борьбы с различными фоновыми шумами — от щелчков клавиатуры до гула офиса, шума машин за окном и прочего. Звучит многообещающе, презентации и промо-материалы выглядят отлично — посмотрим, насколько эффективно система работает на самом деле.

Установка и настройка

Дистрибутив можно скачать с сайта Nvidia, там же есть очень подробная инструкция по установке и настройке, поэтому мы сегодня остановимся лишь на ключевых моментах. Сразу заметим, что утилита работает под Windows 10 и изначально предназначена исключительно для взаимодействия с видеокартами серии GeForce RTX. Однако пользователям очень быстро удалось добиться ее работы с другими моделями видеокарт Nvidia — поиск соответствующей инструкции в сети занимает пару минут. Разработчики пока не торопятся закрыть эту лазейку — вероятно, дают пользователям вдоволь поиграться с новинкой и сформировать у себя желание использовать ее в дальнейшем.

После запуска программы видим весьма лаконичный интерфейс. В двух выпадающих меню нам предлагается выбрать устройства, которые будут использоваться для записи и воспроизведения через RTX Voice — технология может работать с обоими, о чем мы еще поговорим.

Параллельно в системе появляются два новых аудиоустройства: микрофон и динамики Nvidia RTX Voice. Можно поставить их как устройства по умолчанию, в таком случае действие системы распространится на звук во всех используемых приложениях.

Но, скорее всего, гораздо удобнее будет использовать шумоподавление лишь в некоторых программах. В таком случае системные настройки не трогаем, а виртуальные устройства RTX Voice выбираем в нужных нам программах. Например, в Skype.

Skype в качестве примера был выбран совершенно случайно — просто оказался под рукой. На сайте компании также заявлена поддержка OBS Studio, XSplit Broadcaster, XSplit Gamecaster, Twitch Studio, Discord, Google Chrome, WebEx, Skype, Zoom и Slack. Но «виртуальное устройство» Nvidia RTX Voice можно без проблем выбрать и в любой другой программе — к примеру, в ходе тестирования оно прекрасно работало с Audacity и Adobe Audition.

Тестирование шумоподавления

Как уже упоминалось выше, система может подавлять шумы как исходящие от пользователя через микрофон, так и входящие — идущие из колонок/наушников. Чтобы пропустить входящий сигнал через Nvidia RTX Voice, просто выбираем его в качестве источника воспроизведения. Функция крайне удобная: часто бывает, что собеседник находится в шумной обстановке, да еще и микрофон использует слабенький — и вот вы вынуждены терпеть плохое качество звука, но ничего поделать с этим не можете. Теперь можете.

Ну и просторы для тестирования открываются безграничные: достаточно, например, открыть любое видео на YouTube, включить шумоподавление и посмотреть на результат. Этим и займемся. Для примера мы выбрали три видео с нашего YouTube-канала, записанные в крайне шумной обстановке — на выставках. Со звуком в наших роликах все очень даже неплохо — пришлось покопаться и найти что-нибудь пошумнее. Кстати, если вы еще не подписаны на наш канал — самое время это сделать, у нас там много всего интересного. На этом минутку саморекламы будем считать оконченной, вернемся к тесту.

В целом, для демонстрации работы системы можно было просто записать звук на выходе RTX Voice, выбрав ее в любом аудиоредакторе. Но получился бы совсем уж сферический конь в вакууме. Для несколько более полной симуляции реального пользовательского опыта мы решили подавлять шумы в гарнитуре, звук из которой записать с помощью стенда MiniDSP E.A.R.S. Естественно, наушники для таких целей стоит выбрать качественные. Мы использовали Audeze Mobius, которые тестировали чуть меньше года назад.

Первое видео с IFA 2019 не особо-то и шумное. Но шум есть, плюс присутствует негромкая фоновая музыка, которую RTX Voice успешно убирает. Голос при этом продолжает звучать более-менее натурально, хотя некоторые изменения ощущаются. С помощью ползунка в утилите можно регулировать степень шумоподавления и подобрать режим, в котором и шум уже не раздражает, и голос звучит в достаточной степени разборчиво.

Второе видео, на котором Стюарт Эштон рассказывает о продуктах Blackmagic Design, содержит типичный фоновый шум большого скопления людей, причем весьма ярко выраженный. С ним система справилась очень неплохо. На третьем видео — просто праздник: голоса, гул, фоновая музыка… И вот только тут RTX Voice немного спасовала: голос пару раз прерывался, появился «металлический» призвук, ни о какой естественности звучания говорить уже не приходится. Но с учетом сложности поставленной задачи — все равно очень впечатляет.

Ну и для еще большей наглядности приведем пару картинок. На первой — спектрограмма небольшого фрагмента аудиодорожки среднего видео без шумоподавления, на второй — с шумоподавлением. Разница очевидна, особенно хорошо заметно, насколько эффективно RTX Voice отрабатывает паузы между словами. При этом часть дорожки, содержащая речь, остается практически без изменений.

С подавлением шума на выходе более-менее разобрались, настало время попробовать подавлять его на входе. Для этого мы использовали микрофон все той же Audeze Mobius, в который были прочитаны несколько строф из «Евгения Онегина» (качество чтения — в меру скромных возможностей автора, который не читатель, а писатель). Из стоящей поблизости акустической системы были запущены четыре вида шума: гул города и офиса, звуки ремонта и, конечно, его величество перфоратор.

Микрофон у Audeze Mobius, как и у ряда других качественных игровых решений, устойчив к посторонним шумам сам по себе, пришлось довольно основательно поднять громкость, чтобы сделать эффект максимально заметным. В нижней части кадра расположена генерируемая с небольшой задержкой, но не менее от этого интересная спектрограмма. В общем, все можно услышать и увидеть.

Некоторые пользователи Nvidia RTX Voice отмечают довольно высокую прожорливость системы — мол, программа может «стоить» до 10 fps в играх. Мы попробовали поиграть в ряд игр со средними для сегодняшнего дня системными требованиями, параллельно ведя разговор с использованием шумоподавления. Никаких серьезных изменений в производительности, достойных обсуждения, отмечено не было. Возможно, в более требовательных играх ситуация может оказаться чуть иной.

Пока RTX Voice официально находится в стадии бета-тестирования, но работает уже весьма впечатляюще. Учитывая, что возможность воспользоваться системой (пока пусть и не совсем официальная) есть у широкого круга обладателей видеокарт Nvidia, имеет смысл хотя бы попробовать. По словам разработчиков, приложение функционирует на основе ИИ, а значит, со временем «научится» работать еще более эффективно. Будем ждать с нетерпением.

А живую демонстрацию работы технологии Nvidia RTX Voice можно увидеть (и услышать) в видео Виталия Казунова на канале iXBT.Games:

Источник

Как запустить шумодав RTX Voice на любой видеокарте от Nvidia

Несколько дней назад Nvidia выпустила плагин под название RTX Voice. Его смысл в том, чтобы заставить видеокарты с поддержкой трассировки (RTX 2000 и RTX Quadro) анализировать звук с микрофона и убирать из него посторонние шумы, такие как звук вентиляторов, нажатий на клавиши и так далее, оставляя только голос. Такой плагин работает в Discord, Zoom, Skype, Google Chrome, Steam Chat, OBS и некоторых других программах.

Однако, как оказалось, обработка звука происходит не на тензорных или RT-ядрах, а на обычных CUDA, так что этот плагин отлично работает даже на видеокартах семейства Fermi (GTX 500), которые вышли почти 10 лет назад — всего лишь требуется установить драйвер Nvidia 410.18 или новее и слегка поколдовать над установщиком, скачать который можно с официального сайта Nvidia абсолютно бесплатно. С последней на данный момент версией 0.5.12.6 такой фокус проходит, возможно в будущем компания прикроет эту лазейку, так что установочный файл этой версии лучше сохранить себе, если вам такой шумодав понравился.

Для начала запустите установку RTX Voice. Через некоторое время установщик скажет, что ваше оборудование не совместимо с этим плагином:

Однако при этом нужные для работы файлы уже будут распакованы — они находятся по пути C:\temp\NVRTXVoice\NvAFX. Перейдите в эту папку, найдите в ней файл RTXVoice.nvi, нажмите на него правой кнопкой мыши > Свойства > Безопасность, и дайте LogonSessionID все разрешения:

После этого примените изменения, откройте этот файл с помощью Блокнота и полностью удалите из него блок :

Теперь сохраните изменения и закройте файл. Далее перейдите в C:\temp\NVRTXVoice и запустите там Setup.exe. Если вы все сделали верно, то установка пойдет без ошибок:

Все, после установки запустите плагин и выберите в нем ваш микрофон, после чего нужно поставить ниже галочку для включения шумодава. Еще ниже выберите выходной девайс (наушники или колонки), и также включите для него шумодав (это позволит отсекать шумы на стороне собеседника):

Теперь остается выбрать Nvidia RTX Voice как микрофон и устройство вывода в нужной вам утилите — например, в Discord:

Источник

кеч voice что делает

Как запустить шумодав RTX Voice на любой видеокарте от Nvidia

После этого примените изменения, откройте этот файл с помощью Блокнота и полностью удалите из него блок :

Теперь остается выбрать Nvidia RTX Voice как микрофон и устройство вывода в нужной вам утилите — например, в Discord:

Кеч voice что делает

Данный файл позволяет настроить некоторые аспекты поведения RHVoice. В текущей версии файл считывается только один раз, при инициализации синтезатора. Это означает, что для того, чтобы изменения настроек вступили в силу, необходимо перезапустить программу, использующую RHVoice.

В целом RHVoice придерживается классического ini-формата. Поскольку этот формат не задаётся никаким официальным стандартом, и существуют различия в реализации между разными приложениями, далее перечислены некоторые особенности, на которые следует обратить внимание.

Общие настройки и исключения

Для некоторых опций возможно указать, что они должны применяться только к конкретному языку или голосу. Некоторые настройки доступны только для какого-то одного языка.

Используется следующий формат:

Язык можно задать одним из следующих способов:

Используется следующий формат:

Скорость, высота и громкость

Настройки из данной группы определяют, как RHVoice должен интерпретировать значения скорости, высоты и громкости, которые он получает от программ-клиентов.

Значение 1 соответствует стандартному поведению голосов.

В следующей таблице показаны все опции этой группы.

Параметр	Описание	Значение по умолчанию	Минимальное значение	Максимальное значение
default_rate	скорость по умолчанию	1	min_rate	max_rate
min_rate	минимальная скорость	0.5	0.2	1
max_rate	максимальная скорость	2	1	5
default_pitch	высота по умолчанию	1	min_pitch	max_pitch
min_pitch	минимальная высота	0.5	0.5	1
max_pitch	максимальная высота	2	1	2
default_volume	громкость по умолчанию	1	min_volume	max_volume
min_volume	минимальная громкость	0.25	0.25	1
max_volume	максимальная громкость	2	1	4

Эти настройки можно задать как для синтезатора в целом, так и для отдельных языков и голосов.

Использование библиотеки Sonic

RHVoice может использовать библиотеку Sonic для изменения скорости речи. Собственный алгоритм изменения скорости речи в RHVoice был усовершенствован в версии 1.4.0, и библиотека Sonic больше не включается в сборки, предоставляемые проектом RHVoice. Поэтому следующая настройка поддерживается только в пользовательских сборках, если было включено использование Sonic.

Настройка min_sonic_rate задаёт минимальное значение скорости, начиная с которого вместо встроенного алгоритма изменения скорости будет использоваться Sonic. По умолчанию в Android всегда используется встроенный алгоритм, а на других платформах Sonic используется для ускорения речи, то есть синтезатор ведёт себя так, как будто в конфигурационном файле прописано:

Переключение языка и голосовые профили

RHVoice может анализировать входной текст и автоматически переключать язык синтеза. Эта функциональность доступна только для языков, чьи алфавиты не включают общих букв.

Чтецы экрана и другие программы-клиенты будут включать голосовые профили в список доступных голосов. Исключение составляет Android, где, из-за особенностей этой платформы, пользовательские голосовые профили не учитываются.

Если же такие элементы, как числа или неалфавитные символы, встречаются внутри предложения, и RHVoice определил, что язык этого предложения отличается от основного, возможны два варианта поведения синтезатора: переключаться на основной голос при чтении этих элементов или читать всё предложение одним голосом, соответствующим языку. По умолчанию используется первый вариант, но пользователь может переопределить поведение синтезатора, отключив опцию prefer_primary_language :

Настройка quality позволяет выбрать один из трёх доступных вариантов качества речи. Чем ниже качество, тем выше производительность: прежде всего, тем быстрее синтезатор начнёт говорить. Доступные режимы описаны в следующей таблице.

Значение	Частота дискретизации (кГц)	Оптимизация времени отклика
max	24	нет
standard	24	да
min	16	да

По умолчанию используется стандартное качество, то есть синтезатор ведёт себя так, как будто в конфигурационном файле прописано:

Несмотря на название, настройки этой группы относятся и к другим неалфавитным символам, даже если их нельзя, строго говоря, классифицировать как знаки препинания.

Режим чтения пунктуации

Значение	Описание
none	не читать (значение по умолчанию)
some	выборочное чтение
all	читать все знаки

Например, включить чтение всех знаков препинания можно следующим образом:

Выборочное чтение пунктуации

Параметр punctuation_list задаёт, какие именно знаки произносить при выборочном чтении. Например:

Встроенный словарь знаков препинания и других символов нельзя назвать полным. Но пользователь может задать названия дополнительных символов в пользовательском словаре.

Следующие настройки определяют, будет ли синтезатор при чтении отдельных символов уведомлять пользователя, что буква является заглавной.

Режим индикации заглавных букв

Значение	Описание
no	отключить (значение по умолчанию)
word	произносить слово «заглавная» перед буквой
pitch	изменять высоту голоса
sound	подавать короткий звуковой сигнал

Изменение высоты при произнесении заглавной буквы

Если включено изменение высоты голоса при чтении заглавных букв, то параметр cap_pitch_factor задаёт значение этого изменение. Эта настройка доступна как для синтезатора в целом, так и для отдельных голосов.

Следующий пример устанавливает увеличение высоты на 30%:

Указание ударения в тексте

Указание положения ударения в тексте поддерживается только для русского и украинского языков. Например, чтобы указать синтезатору, что следующая за знаком + гласная должна получить ударение, нужно прописать в конфигурационном файле:

Отключение отдельных языков и голосов

Вы можете сделать некоторые языки и голоса недоступными программам-клиентам. Такая возможность может оказаться полезной, если вы не используете эти языки или голоса и не хотите, чтобы ваш чтец экрана их отображал. Следующий пример блокирует все английские голоса и Александра:

Данный режим доступен только для языков, не использующих латинский алфавит.

При чтении английских слов голоса могут стараться по мере возможности следовать правильному английскому произношению. При этом они не могут использовать правильные английские звуки, а только наиболее близкие звуки родного языка.

Чтобы можно было использовать этот режим, необходимо, чтобы был установлен английский языковой пакет. При этом не обязательно устанавливать английские голоса.

Поддержка псевдо-английского включена по умолчанию, если английский языковой пакет установлен. Отключить её, например, для русских голосов можно так:

Личный взгляд на GOSU.AI Voice Assistant

Начнём с главного. Что делает голосовой помощник?

Голосовой помощник помогает игрокам во время игры множеством способов. Найдя игру и пикнув персонажа, голосовой помощник начнет давать полезные советы. Он представит персонажа, рассказав о его сильных сторонах, предложит актуальный итем и скилл билды, будет давать персональные советы, и, что я люблю больше всего, он будет напоминать вам обо всех ключевых таймингах в игре.

Как работает голосовой помощник?

Апка работает в виде оверлея. Она отлично выглядит, не занимает много пространства на экране. Помощник зачитывает текст и показывает его на экране. Вы можете изменить голос с мужского на женский и наоборот, выключить субтитры, передвинуть оверлей и выключить звук в апке нажатием одной кнопки. Программа очень проста в использовании.

Для кого он полезен?

Новые игроки так же выдали отличный фидбек по голосовому помощнику, поскольку он помогает не только выучить основы, но и максимально близко приблизиться к уровню профессиональных игроков.

Каковы наши дальнейшие планы?

Это лишь первая версия голосового помощника, но она уже великолепна. Она становится лучше с каждым днём. В данной версии голосовой помощник уже умеет давать вам советы, отталкиваясь от ваших показателей по общей ценности, ласт-хитам, КДА и прочего. В будущем, мы надеемся обучить ИИ распознаванию инвентарей как тиммейтов, так и соперников, давать определенные советы, отталкиваясь от общей экономической ситуации в игре, распознавать лайн-апы и помогать вам одерживать победу на линии.

Начиная с сегодняшнего дня голосовой помощник становится частично бесплатным. Один герой с каждой из игровых позиций будет доступен для пользователей абсолютно бесплатно. Доступные герои будут меняться каждую неделю.

Описание технологии pick by voice из первых рук. Преимущества и недостатки.

В 2011 году мы были одними из первых в России, кто решился на внедрение технологии голосового управления pick by voice, (пик бай войс) и главное — реализовали voice picking в полном объеме. Сегодня рассажу, что такое pick by voice от А до Я не теоретически, а из практического опыта, поскольку я руководил большим распределительным центром во время внедрения этой технологии.

Информация у Вас будет из первых рук.

Мы не будем делать долгого вступления об истории возникновения voice picking (войс пиккинг) в России. Думаю Вам больше интересно другое, а именно сам процесс, преимущества и недостатки технологии pick by voice. Поэтому, сразу и начнем.

Что такое pick by voice, и c чего все начинается.

Pick by voice, это голосовая технология комплектации товара с элементом Hand Free, то есть свободные руки. Другими словами, комплектовщик собирает или подбирает товар получая голосовую команду через гарнитуру (наушники). При этом вообще не использует накладные или ТСД (терминал сбора данных).

Его руки полностью свободны.

Итак, все по порядку.

В свое время, в составе рабочей группы, я проходил обучение технологии pick by voice за границей. На протяжении полутора недель, у всех нас, кипела голова от объемного потока новой информации в совершенно новой технологии.

И это первое, в чем нужно отдавать себе отчет. Ведь требуется изучить нюансы не только самого процесса и нового оборудования, но и саму складскую программу обеспечивающую работу этой технологии.

Начать, а потом по месту разобраться, это не про голосовое управление складом

Поэтому, уже на месте, все начинается с тестирования процессов на уровне WMS склада. Прописываются регламенты и пошаговые инструкции для всех участников, от комплектовщика до начальника смены или склада.

Это обязательно.

Несомненно, должна быть квалифицированное IT и достаточные ресурсы на новое оборудование.

И отдельно скажу. Венцом всего этого, должна быть непреклонная воля и сильная команда. Многие начинали, но мало, кто смог внедрить процесс до конца. Чего-то из перечисленного не хватило.

Описание технологии pick by voice

Оборудование для pick by voice:

Плеер и гарнитура для pick-by-voice

Каждый комплектовщик должен пройти голосовую авторизацию в системе voice — WMS склада. Другими словами, авторизация при подключении комплектовщика проходит по голосу сотрудника. Система должна распознавать голос каждого комплектовщика. Его голос привязан к личному аккаунту в системе склада.

Есть ряд строго определенных слов и словосочетаний, которые система должна запомнить по каждому сотруднику комплектации. Это слова связаны с голосовыми командами на каждом этапе комплектации товара. На этапе обучения системы, комплектовщик по несколько раз произносит одну и туже фразу (команду), пока система не зафиксирует и запомнит голос сотрудника.

Команды или слова примерно следующие:

Всего диктуется около 25-30 слов и словосочетаний, в том числе, цифры от 0 до 9. К другим командам и работе комплектовщика мы еще вернемся.

Pick by voice — приемка и размещение товара.

В технологии пик бай войс, приемка и размещение товара достаточно стандартна. Точнее, голосовая технология здесь не используется, поскольку в ней нет необходимости. Этикетка выгруженных паллет и товара сканируются терминалом сбора данных. ТСД связан по wi-fi с оборудованием приемки в зоне приемки склада. Кладовщику только следует подтвердить принятое количество на экране. Данные приемки попадают в учетную систему WMS склада.

На принтере распечатывается этикетка паллета, где указан номер паллета, номер заказа поставки, другие стандартные данные по товару в паллете.

Как только товар принят в систему склада, WMS автоматически дает задачу на экран штабелера для размещения товара. Водитель штабелера подъезжает к паллету, сканирует штрих-код этикетки паллета. WMS склада дает информацию в какую ячейку хранения разместить данный паллет. После выполнения размещения, водитель штабелера «пристреливает» размещенный паллет к штрих-коду ячейки хранения.

Пока он это не сделает, система не даст ему взять следующий паллет.

Как только задача по размещению товара выполнена по одному заказу, сразу же на экране штабелера появляется следующая задача. Уточню, система склада это делает автоматически, без участия оператора склада.

Пополнение зоны пиккинга идет по тому же принципу. Водитель штабелера получает задачи на экране. Подтверждает выполнение задачи с помощью ТСД, как при размещении.

Подробное описание процесса Pick by voice от А до Я в части комплектации

Вот здесь вся технология войс пиккинга (voice picking) и проявляется. Комплектовщик берет свой терминал, надевает наушники (гарнитуру) и по голосу, назвав свою ФИО, авторизуется в системе склада, получает задачу на комплектацию. Подтверждает получение задачи «задание получил».

Система дает ему голосовую команду «иди к ряду номер 1, секция 5». Комплектовщик идет к указанному месту.

Здесь сделаю небольшое, но важное отступление.

Ячейки мест подбора (пиккинга )дополнительно пронумерованы. Этикетка с номером места пиккинга не имеет порядковый номер по нарастающей. Цель этого — чтобы комплектовщик «на автомате» не называл номер следующей ячейки, а вынужден был смотреть на номер, прежде, чем его называть.

Комплектовщик называет номер ячейки пиккинга. Система понимает, что он пришел верно (ведь этот номер привязан к штрих-коду ячейки с данными. WMS склада дает команду — «возьми 3 коробки».

технология hand free в pick by voice

Сотрудник комплектации берет указанное количество, голосом подтверждает — «3 коробки — окей».

Обратите внимание, что комплектовщик не знает, какой товар находится в этих коробках. Он просто выполняет команды.

После подтверждения, система дает следующую команду — «иди к ряду номер 1, секция 8». Комплектовщик также отправляется к назначенному месту. По аналогии называет номер ячейки. Система понимая, что он напротив нужного товара, дает команду «возьми 4 коробки». Комплектовщик складывает на поддон 4 коробки и говорит «4 коробки — окей».

Если сотрудник склада не подтверждает выполнение задачи, система не даст следующую. Таким образом, комплектовщик набирает паллет.

Финал комплектации

Когда паллет скомплектован, сотрудник комплектации произносит — «паллет полный». Система дает ему команду «иди к принтеру номер 3». (обычно отправляет к ближайшему и свободному принтеру). Комплектовщик подходит к принтеру, называет последние 4 числа номера этого принтера. Система понимает, что сотрудник у заданного принтера, и распечатывает этикетку паллета со всеми требуемыми данными.

Сборщик заказов клеит этикетку, перемещает паллет в буферную зону готовых паллет. После завершения, дает команду «паллет готов». Эта команда автоматически передается сотруднику на экран погрузчика или штабелера, для размещения или перемещения его в соответствующую зону склада.

Пока сотрудник не скажет «паллет готов», он не сможет получить следующие задание.

Плюсы и минусы технологии voice picking (голосового подбора)

Плюсы:

Минусы:

Голосовое управление на складе, другие детали

Что касается отгрузки, здесь все стандартно. То есть голосовой аспект пик бай войс здесь просто не применим. Частичная инвентаризация проходит также без использования этой технологии.

Правда, полная инвентаризация может быть более оптимизированной. Нам удалось настроить WMS так, что сканировав ячейку, этикетку товара в ячейке, подтвердив данные на ТСД, система сама формирует электронную ведомость просчета. Нет никаких бумажных носителей. Однако, это можно настроить и без использования технологии голосового управления.

Конечно, внедрение системы голосового управления требует времени.

У нас ушло 3 месяца на активную подготовку, несколько недель на внедрение. На этапе внедрения, когда тесты показали себя отлично, а в реалиях система не работала, было очень близко к тому, чтобы вернуться на прежнюю WMS. Нас отделяло от этой точки всего 1 день. Однако, последние попытки и усилия по 18 часов в работы в сутки, дали прорыв.

Мы еще дорабатывали, «докручивали» WMS склада и процессы в течение 4-х месяцев, но было понятно, что мы на верном пути. В итоге, все операции склада стали на столько отработанными, что все ощутили отдачу и ожидаемые плюсы pick by voice. Работа стала эффективнее.

Отдельно подчеркну, чтобы добиться показателя точности сборки в 99,98 %, требуется 100% соответствия товара в пиккинге.

На тему безошибочной комплектации есть моя отельная статья.

Многие заявляют, что использование на складе пик бай войс увеличивает производительность до 30%. Если отталкиваться от использования бумажной ведомости, может быть. Относительно, налаженной работы с применением ТСД, — миф. Как писал выше — 7-10% это реальная цифра. Pick by voice, это оптимизация, но не чудо.

На этом, тема, что такое pick by voice от А до Я, завершена. Если остались еще какие вопросы, пишите в комментариях. Смогу ответить относительно своего опыта в этом вопросе. Всего Вам хорошего и успехов!

Голосовой DeepFake, или Как работает технология клонирования голоса

Проблема синтеза речи из текста (Text-to-Speech, TTS) представляет собой одну из классических задач для искусственного интеллекта. Цель ИИ – автоматизировать процесс чтения текста, основываясь на наборах данных, содержащих пары «текст – аудиофайл».

Одной из важных проблем синтеза речи является задача создания образа голоса со всеми его характерными особенностями. Соответствующие наборы методик называют технологией клонирования голоса (англ. voice changing, voice cloning).

Решение указанной проблемы имеет множество практических приложений:

Очевидно, что подобные технологии могут применяться с преступными целями: мошенничество, телефонное хулиганство, компрометирование в результате совмещения с технологией DeepFake. Поэтому кроме методов клонирования голоса важно разрабатывать средства для предотвращения незаконного использования технологии.

Для обучения системы необходимо иметь большое количество сопоставленных аудиозаписей и текстов. В случае голосов знаменитостей можно прибегать к помощи записей публичных выступлений, интервью, результатам творческой деятельности и т. п. В качестве текстовых пар могут применяться стенограммы или тексты, полученные в результате коррекции автоматически распознанной речи.

Отличительной особенностью последних разработок является то, что для создания правдоподобного образа «голосовой мишени» достаточно всё меньших интервалов звучащей устной речи.

Современное состояние

В сфере создания инструментов для клонирования голоса работают множество команд, стремящихся к коммерциализации программных продуктов. По приведённым ниже ссылкам вы можете оценить текущее состояние технологии:

Другие компании стараются обойти стороной этический вопрос за счёт использования вместо клонирования голоса нейросетевых систем синтеза-смешения множества голосов. Таким коммерческим продуктом является, например, Yandex SpeechKit.

В связи с тем, что данная технология представляет конкурентный интерес для множества IT-компаний, проекты с открытым исходным кодом крайне редки. В этой статье мы остановимся на редком свободном проекте Real-Time Voice Cloning. Этот открытый репозиторий является результатом применения технологии переноса обучения SV2TTS, описанной в научной публикации (сэмплы, полученные в результате применения подхода).

Автор библиотеки с июня 2019 участвует в упомянутом выше коммерческом проекте Resemble.AI и уделяет репозиторию меньше времени, но ничто не мешает вам сделать собственный форк проекта.

Алгоритм клонирования голоса

Чтобы компьютер мог читать вслух текст, ему нужно понимать две вещи: что он читает и как это произнести. Поэтому в проекте Real-Time Voice Cloning система клонирования принимает два входных источника: текст, который необходимо озвучить, и образец голоса, которым этот текст должен быть прочитан.

С технической точки зрения система разбита на три компонента:

Модели трёх выделенных компонентов обучаются независимо друг от друга.

Где взять данные?

Для обучения кодера речи можно обратиться к следующим библиотекам:

Для обучения синтезатор и вокодера:

Официальным хостингом наиболее популярных наборов данных LibriSpeech служит openslr.org, который из-за популярности темы постоянно находится под существенной нагрузкой. Поэтому выше мы приложили ссылки на «зеркала» архивов.

Если вы решили с головой погрузиться в данную тему, обратите внимание на библиотеку Python для работы с аудиодатасетами audiodatasets:

Будьте осторожны: при установке библиотека загружает более 100 Гб данных трех наборов:

Перечислим также другие датасеты, которые не проверялись в рассматриваемой библиотеке, но применимы для обучения, в том числе корпуса русскоязычной устной речи:

Использование предобученных моделей

Имеется инструкция по переносу проекта с помощью Docker, здесь мы рассмотрим установку на локальной машине. Учтите, что наличие GPU является обязательным. Клонируем репозиторий:

В качестве языка программирования используется Python 3, автор рекомендует версию 3.7. В связи с тем, что репозиторий предполагает привлечение вполне конкретных версий библиотек, рекомендуем питонистам пускать в ход виртуальное окружение.

Переходим в папку и устанавливаем необходимые зависимости:

Также потребуется фреймворк глубокого обучения PyTorch (версия не ниже 1.0.1).

Далее необходимо загрузить предобученные модели (архив на Google drive, зеркало). Согласно с вышеописанной схеме загруженный архив содержит три директории для трех моделей. Их нужно слить вместе с соответствующими директориями корневого каталога библиотеки.

Проверить правильность конфигурации можно ещё до загрузки датасетов:

Если все тесты пройдены (вы увидите строку All tests passed ), можно двигаться дальше. Скрипт предложит указать пути к файлам примеров, но для работы удобнее обратиться кграфическому интерфейсу:

Если у вас уже загружены датасеты, то можно сразу указать путь к директории:

Чтобы просто поиграть с программой, достаточно наименьшего по объёму датасета LibriSpeech/train-clean-100 (см. выше).

Пример результата вызова интерфейса:

Пример работы с интерфейсом без обучения нейросетей представлен в следующем видеоролике:

Процесс обучения

Начинаем с подготовки данных для обучения кодера:

Далее запускаем два скрипта, генерирующих данные для синтезатора. Начинаем с аудиофайлов:

Теперь вы можете обучить синтезатор:

Синтезатор будет выводить сгенерированные аудио и спектрограммы в каталог моделей. Используем синтезатор для генерации обучающих данных вокодера:

Наконец, обучаем вокодер:

Вокодер выводит сгенерированные аудиофайлы в директорию модели.

При возникновении вопросов относительно работы библиотеки мы также рекомендуем ознакомиться с диссертацией автора. Там же приведены ссылки на научные работы, посвящённые теме клонирования и изменения голоса.

Источник

Портал info.fammeo.ru

кеч voice что делает

Обзор технологии шумоподавления Nvidia RTX Voice

Установка и настройка

Тестирование шумоподавления

Как запустить шумодав RTX Voice на любой видеокарте от Nvidia

кеч voice что делает

Как запустить шумодав RTX Voice на любой видеокарте от Nvidia

Кеч voice что делает

Личный взгляд на GOSU.AI Voice Assistant

Описание технологии pick by voice из первых рук. Преимущества и недостатки.

Что такое pick by voice, и c чего все начинается.

Описание технологии pick by voice

Pick by voice — приемка и размещение товара.

Подробное описание процесса Pick by voice от А до Я в части комплектации

Финал комплектации

Плюсы и минусы технологии voice picking (голосового подбора)

Голосовое управление на складе, другие детали

Голосовой DeepFake, или Как работает технология клонирования голоса

Современное состояние

Алгоритм клонирования голоса

Где взять данные?

Использование предобученных моделей

Процесс обучения

Добавить комментарий Отменить ответ

Обзор технологии шумоподавления Nvidia RTX Voice

Установка и настройка

Тестирование шумоподавления

Как запустить шумодав RTX Voice на любой видеокарте от Nvidia

кеч voice что делает

Как запустить шумодав RTX Voice на любой видеокарте от Nvidia

Кеч voice что делает

Личный взгляд на GOSU.AI Voice Assistant

Описание технологии pick by voice из первых рук. Преимущества и недостатки.

Что такое pick by voice, и c чего все начинается.

Описание технологии pick by voice

Pick by voice — приемка и размещение товара.

Подробное описание процесса Pick by voice от А до Я в части комплектации

Финал комплектации

Плюсы и минусы технологии voice picking (голосового подбора)

Голосовое управление на складе, другие детали

Голосовой DeepFake, или Как работает технология клонирования голоса

Современное состояние

Алгоритм клонирования голоса

Где взять данные?

Использование предобученных моделей

Процесс обучения

Вам также понравится

категория дома дачи коттеджи что это

как утеплить цветы на подоконнике зимой

Скидки на межкомнатные двери в тюмени

Добавить комментарий Отменить ответ