Даша АИ звонит, чтобы вам не пришлось

В то время как вам будет трудно найти любой стартап не полные уверенности в разрушительной идее, которую они преследуют, не часто вы сталкиваетесь с молодой компанией, которая спокойно убеждена, что она проектирует будущее, как Даша А.И.,

Команда строит платформу для проектирования голосовых взаимодействий, похожих на человека, для автоматизации бизнес-процессов. Проще говоря, он использует ИИ, чтобы сделать машинные голоса намного менее роботизированными.

«Мы точно знаем, что это обязательно произойдет», – говорит генеральный директор и соучредитель Владислав Чернышов. «Рано или поздно разговорный ИИ / голосовой ИИ заменит людей везде, где позволят технологии. И нам лучше быть первопроходцем, чем последним в этой области ».

«В 2018 году только в США 30 миллионов человек выполняли какие-то повторяющиеся задачи по телефону. Мы можем автоматизировать эти рабочие места сейчас, или мы сможем автоматизировать их через два года », – продолжает он. «Если вы объедините его с Европой и крупными телефонными центрами в Индии, Пакистане и на Филиппинах, у вас, вероятно, будет около 120 миллионов человек по всему миру … и все они потенциально могут быть нарушены».

Нью-йоркский стартап до сих пор работал в относительной скрытности. Но поговорить с TechCrunch непросто – объявить стартовый раунд за 2 млн. Долл. Во главе с RTP Ventures и RTP Global: инвестор на ранней стадии развития, который поддержал таких Datadog а также RingCentral, Венчурное подразделение RTP, также базирующееся в Нью-Йорке, пишет на своем веб-сайте, что предпочитает компании, основанные инженерами, которые «решают большие проблемы с технологиями». "Нам нравится технология, а не уловки«Предупреждает фонд добавленный акцент,

В настоящее время основная технология Даши включает в себя то, что Чернышов описывает как «движок моделирования речи, основанный на человеческом уровне»; гибридный механизм преобразования текста в речь, который, по его словам, позволяет моделировать речевые нарушения (иначе говоря, ум и ах, изменения высоты тона и т. д., которые характеризуют человеческую болтовню); плюс «быстрый и точный» алгоритм обнаружения голосовой активности в реальном времени, который обнаруживает речь менее чем за 100 миллисекунд, а это означает, что ИИ может поворачивать и обрабатывать прерывания в потоке разговора. Платформа также может определять пол вызывающего абонента – функция, которая может быть полезна, например, для случаев использования в здравоохранении.



Другим компонентом чернышовских флагов является «сквозной конвейер для обучения под наблюдением» – так что он может переучивать модели в режиме реального времени «и исправлять ошибки по мере их появления» – пока Даша не достигнет заявленной способности говорить на «человеческом уровне» для каждой ниши бизнес-процесса. (Для ясности, ИИ не может адаптировать свою речь к собеседнику в режиме реального времени – поскольку говорящие на людях естественным образом смещают свои акценты ближе, чтобы ликвидировать любой разрыв в диалекте, – но Чернышов предполагает, что это на дорожной карте.)

«Например, мы можем начать с 70% правильных разговоров, а затем постепенно улучшить модель до 95% правильных разговоров», – говорит он об элементе обучения, хотя и допускает, что существует множество переменных, которые могут влиять на частоту ошибок – не в последнюю очередь сама среда вызова. Даже передовой ИИ будет бороться с плохой линией.

Платформа также имеет открытый API, поэтому клиенты могут подключать ИИ беседы к своим существующим системам – будь то телефония, программное обеспечение Salesforce или среда разработки, такая как Microsoft Visual Studio.

В настоящее время они ориентированы на английский, хотя Чернышов говорит, что архитектура «в основном не зависит от языка», но требует «большого количества данных».

Следующим шагом будет открытие платформы dev для корпоративных клиентов, помимо первоначальных 20 бета-тестеров, в которые входят компании из банковского сектора, сектора здравоохранения и страхования. Выпуск запланирован на конец этого года или первый квартал 2020 года.

До сих пор тестируемые сценарии использования включают банки, использующие механизм диалога для управления лояльностью к бренду, для проведения опросов об удовлетворенности клиентов, которые могут исправить негативные отзывы, быстро отслеживая реакцию на плохой рейтинг – предоставляя (человеческим) агентам поддержки клиентов автоматическую категоризацию жалоба, чтобы они могли следить быстрее. «Это обычно приводит к эффекту вау», – говорит Чернышов.

В конечном счете, он полагает, что в мире будет две или три основные платформы ИИ, обеспечивающие предприятия автоматическим настраиваемым диалоговым уровнем – сметая лоскутное одеяло чат-ботов, которые в настоящее время заполняют пробел. И, конечно же, Даша хочет, чтобы их «Цифровой помощник сверхчеловека» был одним из немногих.

«Там явно нет платформы (пока), – говорит он. «Через пять лет это будет звучать очень странно, что все компании сейчас пытаются что-то построить. Потому что через пять лет станет очевидно – зачем тебе все это? Просто возьми Дашу и построй, что хочешь.

«Это напоминает мне ситуацию, сложившуюся в 1980-х годах, когда было очевидно, что персональные компьютеры останутся здесь, потому что они дают вам несправедливое конкурентное преимущество», – продолжает он. «Все крупные корпоративные клиенты во всем мире … строили свои собственные операционные системы, они писали программное обеспечение с нуля, постоянно изобретая колесо, чтобы иметь возможность создать эту электронную таблицу для своих бухгалтеров.

«А потом пришла Microsoft с MS-DOS… и все остальное уже история».

Это еще не все, что они строят. Начальное финансирование Даши будет направлено на запуск ориентированного на потребителя продукта на его платформе b2b для автоматизации скрининга записанных робоколлов. Так что, по сути, они строят робота-помощника, который может говорить и выключать другие машины от имени человека.

Что наводит на мысль, что будущее, основанное на искусственном интеллекте, повлечет за собой ужасное количество роботов, говорящих друг с другом… 🤖🤖🤖

Чернышов говорит, что это приложение для проверки вызовов b2c, скорее всего, будет бесплатным. Но если ваша основная технология, похоже, настроена на массовое ускорение явления, не связанного с человеком, которое многие потребители уже считают ужасной чумой своего времени и разума, то предоставление бесплатной помощи – в форме встречного ИИ – кажется, по крайней мере, вам следует делать.

Не то чтобы Дашу можно было обвинить в том, что она вызывала чуму робокаллера. Записанные сообщения, подключенные к системам вызовов, спамили людей с незапрошенными вызовами гораздо дольше, чем существовал запуск.

Пиарские заметки Даши Только в 2018 году американцы пострадали от 26,3 млрд. Робоколлов – что на 46% больше, чем в 2017 году.

Тем временем его механизм разговоров совершил всего около 3 миллионов вызовов, совершив свой первый звонок с человеком в январе 2017 года. Но с этого момента цель – быстро масштабироваться. «Мы планируем агрессивно развивать компанию и технологии, чтобы мы могли продолжать предоставлять лучший голосовой ИИ на рынке, который, по нашим оценкам, превышает 30 миллиардов долларов во всем мире», – подчеркивает его PR.

После запуска платформы разработчика Чернышов говорит, что следующим шагом будет открытие доступа для владельцев бизнес-процессов, позволяя им автоматизировать существующие рабочие процессы вызовов без необходимости кодирования (им просто нужно аналитическое понимание процесса, говорит он ).

Позже – в соответствии с нынешней дорожной картой – на 2022 год – будет запуск «платформы с нулевой кривой обучения», как он выразился. «Вы будете учить Дашу новым моделям так же, как печатать на естественном языке и учить его так, как вы можете научить любого нового члена команды в своей команде», – объясняет он. «Добавление нового случая на самом деле будет выглядеть как редактор слов – когда вы просто описываете, как вы хотите, чтобы этот ИИ работал».

Он прогнозирует, что большинство – около 60% – всех основных случаев, с которыми сталкивается бизнес, – «таких как рассылка, например, продажи, перекрестные продажи, какая-то поддержка и т. Д., Все эти случаи» – смогут автоматизироваться «точно так же, как печатать на естественном языке ».

Так что, если дашинское видение, основанное на искусственном интеллекте, для автоматизации голосовых бизнес-процессов осуществится, то люди, получающие на несколько порядков больше вызовов от машин, станут неизбежными – поскольку машинное обучение стимулирует искусственную речь, заставляя ее звучать более гладко, действовать умнее и казаться, ну, почти человек.

Но, возможно, более опытное поколение голосовых ИИ также поможет справиться с чумой «робокаллера», предлагая расширенную проверку вызовов? И поскольку голосовые технологии, не принадлежащие человеку, идут от немых записанных сообщений к ИИ в стиле чат-ботов, работающих на скриптовых рельсах, – как Даша рассказывает об этом – полностью отзывчивые, эмоциональные, даже чувствительные к эмоциям механизмы разговоров, которые могут проскользнуть прямо под человеческий радар, может быть проблема робокаллера кушает сама? Я имею в виду, если вы даже не поняли, что разговариваете с роботом, как вас это раздражает?

Даша утверждает, что 96,3% людей, которые говорят с ее ИИ, «думают, что это человек», хотя неясно, на каком размере выборки основано это утверждение. (На мой слух, есть определенные «рассказывает» в текущих демонстрациях на его Веб-сайт, Но в сценарии холодного вызова нетрудно представить прохождение ИИ, если кто-то не обращает особого внимания.)

Альтернативный сценарий, в будущем наполненный нежелательными вызовами машин, заключается в том, что все операционные системы смартфонов добавляют переключатели отключения, такие как iOS 13 – который позволяет людям замолчать звонки с неизвестных номеров.

И / или больше людей просто никогда не отвечают на телефонные звонки, если они не знают, кто находится на конце линии.

Так что Даша действительно вдвойне разбирается в том, чтобы создать ИИ, способный управлять вызовами роботов – то есть, он строит свой запасной вариант – часть программного обеспечения. готовый пообщаться с его ИИ в будущем, даже если реальные люди откажутся.

Приложение Dash Roboall Screener, которое планируется к выпуску в начале 2020 года, также не будет спамерским, поскольку оно сможет обрабатывать и отвлекать как продавцов, так и роботов. В конце концов, спамер – это спамер.

«Возможно, пришло время кому-то вмешаться и« не быть злым », – говорит Чернышов, повторяя старый девиз Google, хотя, возможно, не совсем обнадеживающе, учитывая потерянную историю фразы – когда мы говорим о подходе команды к развитию экосистемы. и как чат между машинами может обойти человеческие голосовые вызовы.

«В какой-то момент в будущем мы будем разговаривать с различными роботами гораздо больше, чем, вероятно, будем разговаривать друг с другом – потому что у вас дома будут роботы, похожие на человека», – предсказывает он. «Ваш доктор, садовник, складской рабочий, все они будут в какой-то момент роботами».

Логика работы здесь заключается в том, что если сопротивление искусственному искусственному камбрианскому взрыву машинной речи бесполезно, то лучше быть на переднем крае, создавая роботов, похожих на людей, и делая роботов как минимум звук как они заботятся.

Разговоры Даши, конечно, нельзя назвать трюком. Даже если пристальное внимание команды к тому, чтобы имитировать вокальные расцветы человеческой речи – неровности, ум и ах, изменение тона и тональности для акцента и эмоций – может показаться таким на первый взгляд.

В одной из демонстраций на своем Веб-сайт вы можете услышать клип очень бодрящего мужского голоса, который идентифицирует себя как «Джон из Acme Dental», принимает вызов на прием от женщины (человека) и плавно справляется с многочисленными прерываниями и изменениями времени / даты по мере ее изменения ее разум. Прежде чем, наконец, иметь дело с плоской отменой.

Человек-регистратор вполне мог разозлиться, что звонивший просто потратил свое время. Хотя не Джон. О нет. Он заканчивает разговор так же весело, как и начал, и решительно подписывает: «Спасибо вы! И действительно хорошего дня. До свидания!"

Если конечной целью является уровень реализма в тесте Тьюринга в искусственной речи – то есть механизм общения, подобный человеческому, который может передаваться человеческому уху, – вы должны быть в состоянии точно воспроизвести словесный багаж, завернутый в оболочку. вокруг всего, что люди говорят друг другу.

Этот тональный слой выполняет важную эмоциональную работу в сфере общения, затенения и выделения слов таким образом, который может адаптировать или даже полностью трансформировать их значение. Это неотъемлемая часть нашего общения. И, таким образом, общий камень преткновения для роботов.

Поэтому, если миссия состоит в том, чтобы привести в движение революцию в искусственной речи, которую люди не будут ненавидеть и отвергать, то разработка нюансов полного спектра будет столь же важной частью работы, как и использование потрясающего механизма распознавания речи. Чатбот, который не может сделать все, что на самом деле является трюком.

Чернышов утверждает, что механизм беседы Даши «по крайней мере в несколько раз лучше и сложнее, чем (Google) Dialogflow, (Amazon) Lex, (Microsoft) Luis или (IBM) Watson», добавляя в разговор список соперничающих речевых движков.

Он утверждает, что никто не может сравниться с тем, на что рассчитана Даша.

Разница заключается в «голосовом моделирующем движке». «Все эти (конкурирующие движки) были созданы с нуля, с акцентом на чат-ботов – на текст», – говорит он, формулируя моделирование голосовой беседы «на человеческом уровне» гораздо более сложным, чем более ограниченный подход чат-ботов – и, следовательно, что делает Даша особенная и высшая.

«Воображение – это предел. То, что мы пытаемся построить, – это идеальная платформа для голосового общения, чтобы вы могли смоделировать любой тип голосового взаимодействия между двумя или более людьми ».

Google сделал демо-версию своего собственного заикающегося AI – дуплексный – в прошлом году, когда это также взялся за публичную демонстрацию в котором, казалось, не сказали персоналу ресторана заранее, что они собирались говорить с роботом.

Чернышова не беспокоит дуплекс, хотя, говоря, что это продукт, а не платформа.

«Google недавно попытался поохотиться на одного из наших разработчиков», – добавляет он, делая паузу для эффекта. «Но они потерпели неудачу».

Он говорит, что инженерные кадры Даши составляют более половины (28) от общей численности персонала (48) и включают в себя две докторские степени; три доктора наук; пять аспирантов; и десять магистров в области компьютерных наук.

У него есть научно-исследовательский офис на русском языке, который, по словам Чернышова, способствует дальнейшему финансированию.

«Более 16 человек, включая меня, ACM ICPC финалисты или полуфиналисты », – добавляет он, сравнивая соревнование с« олимпийской игрой, но для программистов ». Недавно нанятый – главный научный сотрудник, доктор Александр Дьяконов – одновременно является доктором наук и бывшим выпускником Kaggle No.1 GrandMaster в области машинного обучения. Таким образом, с таким внутренним ИИ-талантом, вы можете понять, почему Google позвонил …

Но почему бы не использовать Dasha ID в качестве робота по умолчанию? На это Чернышов говорит, что платформа гибкая, что означает, что можно добавить информацию. Но на рынках, где это не является законным требованием, дверь «Джона» остается открытой, чтобы весело проскользнуть мимо. Bladerunner вот и мы

Основное убеждение команды заключается в том, что акцент на моделировании человеческой речи, в конечном итоге, позволит их ИИ обеспечивать универсальное плавное и естественное взаимодействие между человеком и речью, что, в свою очередь, открывает всевозможные широкие и мощные возможности для встраиваемого следующего поколения. голосовые интерфейсы. Те, которые гораздо интереснее, чем нынешний урожай гаджетов.

Здесь вы можете исследовать научно-фантастическую / поп-культуру для вдохновения. Например, Китт, безумно говорящая машина из сериала 1980-х годов. Рыцарь всадник, Или, чтобы добавить ссылку на британское телевидение, Холли – самоуничижительный, но сардонический компьютер с человеческим лицом в Красный карлик, (Или, действительно, Крайтен, замученный андроид дворецкий.) Чернышов предлагает представить себе Дашу, заключенную в Бостонская Динамика робот. Но, конечно же, никто не хочет слышать крики этих ползающих кошмаров …

Пятилетняя план действий Даши включает в себя амбиции, вызывающие удивление, в развитии технологии для достижения «общего разговорного ИИ». «На данный момент это научная фантастика. Это общий разговорный ИИ, и только в этот момент вы сможете пройти весь тест Тьюринга », – говорит он об этой цели.

«Поскольку у нас есть распознавание речи на человеческом уровне, у нас есть синтез речи на человеческом уровне, у нас генеративное поведение, не основанное на правилах, и это все части общего разговорного ИИ. И я думаю, что мы можем, мы можем – и научное общество – мы можем достичь этого вместе примерно в 2024 году или что-то в этом роде.

«Затем следующий шаг, в 2025 году, это как автономный ИИ – встраиваемый в любое устройство или робот. И, надеюсь, к 2025 году эти устройства будут доступны на рынке ».

Конечно, команда все еще мечтает отдалиться от этой страны чудес / дистопии (в зависимости от вашей перспективы) – даже если это указано на дорожной карте.

Но если разговорный движок в конечном итоге командует всей гаммой человеческой речи – причудами, придирками и всем остальным – тогда разработка голосового ИИ может считаться сродни разработке телевизионного персонажа или персонажа мультфильма. Очень далеко от того, что мы в настоящее время ассоциируем со словом «роботизированный». (И было бы не смешно, если бы термин «роботизированный» стал означать «чрезмерно увлекательный» или даже «особенно чуткий» благодаря достижениям в области ИИ).

Давайте не будем увлекаться, хотя.

В то же время, в «странной долине» есть ловушки разрыва речи, чтобы ориентироваться, если удар (искусственно) звучит, попадает в фальшивую ноту. (И, с другой стороны, если бы вы не знали, что «Джон из Acme Dental» был роботом, вы были бы прощены за то, что неправильно прочитали его знак «отбойник» и назвали его просто бесполезным сарказмом. Но ИИ не может понять иронию). . Пока что нет.)

Роботы также не могут оценить разницу между этическим и неэтичным устным общением, которое им предписано выполнять. Продажи звонков могут легко перейти через спам. А что насчет еще большего количества антиутопий, используемых для настолько удобного механизма разговоров, который может убедить подавляющее большинство людей в его человечности – например, в мошенничестве, краже личных данных, даже вмешательстве в выборы … потенциальные злоупотребления могут быть ужасными и масштабироваться до бесконечности.

Хотя, если вы прямо спросите Дашу, является ли это робот, Чернышов говорит, что он запрограммирован признаваться искусственным. Так что это не скажет вам неприкрытую ложь.

Даша

Как команда предотвратит проблемное использование такой мощной технологии?

«У нас есть этическая основа, и когда мы выпустим платформу, мы внедрим систему мониторинга в режиме реального времени, которая будет отслеживать потенциальные злоупотребления или мошенничество, а также обеспечит не слишком частый вызов людей», – говорит он. "Это очень важно. Мы понимаем, что такого рода технологии могут быть потенциально опасными ».

«На первом этапе мы не собираемся выпускать это для широкой публики. Мы собираемся выпустить его в закрытой альфе или бета-версии. И мы будем курировать компании, которые собираются, чтобы изучить все возможные проблемы и предотвратить их массовые проблемы », – добавляет он. «Наша команда машинного обучения разрабатывает те алгоритмы для обнаружения злоупотреблений, спама и других случаев использования, которые мы хотели бы предотвратить».

Существует также проблема словесных «глубоких подделок». Тем более, что Чернышов предполагает, что платформа со временем будет поддерживать клонирование голосовой печати для использования в разговоре – открытие двери для ложных звонков чужим голосом. Что звучит как мечта для мошенников всех мастей. Или способ по-настоящему перегружать ваших самых успешных продавцов.

Можно с уверенностью сказать, что контр-технологии – и продуманное регулирование – будут очень важны.

Существует мало сомнений, что ИИ будет регулироваться. В Европе разработчики политики поставили перед собой задачу разработать концепцию этического ИИ. И в ближайшие годы политики во многих странах будут пытаться выяснить, как поставить ограждения на технологический класс, который в потребительской сфере уже продемонстрировал свой разрушительный потенциал – с автоматическим ускорением спама, дезинформации и политической дезинформации в социальных сетях.

«Мы должны понимать, что в какой-то момент этот вид технологий определенно будет регулироваться государством во всем мире. И мы, как платформа, должны соблюдать все эти требования », – соглашается Чернышов. предполагая, что машинное обучение также сможет определить, является ли говорящий человеком человеком или нет, и что официальный статус вызывающего абонента может быть включен в протокол телефонии, чтобы люди не оставались в неведении по поводу вопроса «бот или нет».

«Это должно быть дружественным к человеку. Не будь злым, верно?

На вопрос, считает ли он, что произойдет с людьми, работающими в колл-центрах, чья работа будет нарушена ИИ, Чернышов быстро отвечает на вопрос – что новые технологии тоже создают рабочие места, говоря, что это было верно на протяжении всей истории человечества. Хотя он признает, что может быть отставание – в то время как старый мир догоняет новый.

Время и прилив не ждут никого, даже когда изменения звучат все больше, как мы.