Как создавались технологии, которые перевернули нашу жизнь | Бизнес-школа Laba (Лаба)
Журнал
if locale != request.locale

Поиск

Как создавались технологии, которые перевернули нашу жизнь

Что было до Siri и кто такой Евгений Густман.

cover-techno-60d5ba9249898697259406.jpg

Мы пользуемся умными фитнес-браслетами и голосовыми ассистентами, но часто не знаем, сколько времени и сил ушло на то, чтобы Siri понимала нашу речь.

Как развивались разработки, ставшие привычными, — рассказываем с онлайн-школой robot_dreams, которая учит навыкам будущего: дата-аналитике, data science и программированию.

#1. Языковая модель, которая понимает и пишет тексты 

Первой предшественницей языковой модели GPT-3 считается ELIZA, которую разработали в 1966 году в Массачусетском технологическом институте. Она стала чат-ботом почти за 30 лет до появления этого термина. 

ELIZA выдавала себя за психотерапевта. Она распознавала ключевые слова и фразы из реплик собеседника, а затем конструировала ответы из предварительно запрограммированных формулировок. 

ELIZA могла задавать открытые вопросы. Например, если человек говорил об отце, модель просила его рассказать об отношениях с родителем подробнее. Сейчас Элизу быстро бы раскусили, но 55 лет назад это был прорыв, хотя она и не справилась с тестом Тьюринга

Первым его прошел виртуальный собеседник Женя Густман (Eugene Goostman) только в 2012 году. Он выдавал себя за 13-летнего украинского мальчика. Женя делал ошибки, показывал уровень знаний, характерный для этого возраста, и убедил 29% судей конкурса AI Loebner в том, что с ними общается человек. Разработкой Густмана 9 лет занимались ученые из Украины и России.

Осенью 2020 года пользователь онлайн-сервиса Reddit заметил, что некто с ником thegentlemetre очень быстро отвечает на вопросы. Оказалось, что за псевдонимом скрывался бот на основе GPT-3. Ему удалось на протяжении недели (!) выдавать себя за человека. 

GPT-3 — это третья версия языковой модели от проекта Open AI. Ее название — аббревиатура от Generative Pre-trained Transformer 3. То есть она создает тексты с помощью предобученных алгоритмов. Это значит, что алгоритмы получили 540 Гб данных (более 220 млн страниц текста, включая всю англоязычную Википедию), и с их помощью научились генерировать естественный человеческий язык. 

Модель понимает, как связаны слова в предложении и почему они следуют в определенном порядке. Она может писать эссе, стихотворения, посты и даже код. Более того, модель способна объяснить, что делает код, написанный человеком:

У GTP-3 все еще есть проблемы, которые мешают ее текстам стать неотличимыми от человеческих. Но технологии развиваются быстро — возможно, совсем скоро GPT-3 будет создавать компьютерные программы или писать книги. 

Подробнее о модели можно прочитать здесь

#2. Распознавание лиц 

Эта технология обнаруживает лицо на фотографии или видео, анализирует, а затем подтверждает личность. Face recognition помогает находить преступников, пропавших детей и даже тех, кто не носит маску во время пандемии. Она узнает вас на фото в Facebook и позволяет быстрее расплачиваться в магазинах.

Работу технологии можно разбить на три этапа:

  • обнаружение лица на изображении (как делает камера вашего смартфона)
  • атрибуция (измерение расстояния между глазами, между носом и ртом, определение формы подбородка и создание цифрового «отпечатка» лица)
  • распознавание конкретного человека на изображении

Первые попытки распознавания лиц американские ученые предприняли еще в начале 1960-х, но успеха не достигли. Возглавлял исследование специалист в области искусственного интеллекта Вудро Вильсон Бледсо. Разработкой заинтересовалось ЦРУ — уже тогда стало понятно, что технология перспективна для слежки. 

В конце 1960-х Бледсо вместе с коллегой, инженером-исследователем Питером Хартом из Стэнфордского университета, использовали 800 изображений — по две фотографии 400 европеоидных мужчин разного возраста и с различным положением головы на снимках. 

Ученые создали 46 координат для каждой фотографии, включая 7 точек на носу, по 5 на ухе, и по 4 на брови. Они использовали математическое уравнение, чтобы развернуть головы, а также стандартизировали размеры снимков, уменьшая или увеличивая их.

Компьютер должен был запомнить одну фотографию лица и применить это знание для распознавания человека на втором снимке.

Исследователи использовали два пути распознавания:

  • предположение на основе 22 измерений 
  • разделение лица на черты (левый глаз, правая бровь, левое ухо) и сравнение расстояний между ними

В обоих случаях программы справились с задачей быстрее, чем люди. Человеку на соотнесение черт 100 лиц требовалось 6 часов, а компьютеру CDC 3800 — 3 минуты.

Дальнейшего прогресса технология добилась только в конце 80-х, когда исследователи использовали линейную алгебру. Развивались проекты, которые повышали точность распознавания лица и закладывали фундамент для современных алгоритмов. 

В 2001 году технологию использовали на Супербоуле. Система фотографировала лица фанатов, входящих на стадион, и сопоставляла изображения с полицейской базой правонарушителей. Это был первый публичный кейс, и уже тогда он вызвал споры по поводу этичности. Позже распознавание лиц помогло найти террориста Усаму бен Ладена. 

Сейчас технологию используют, например, службы безопасности аэропортов (для поиска преступников), айфоны с функцией FaceID (для разблокировки), Google Фото (для сортировки снимков и отметки людей). Японские разработчики уже научили технологию распознавать лица в масках. Она одновременно и повышает безопасность, и угрожает нежелательным раскрытием личности.

#3. Распознавание речи

Первым достижениям в этой области уже почти 70 лет. В 1952 году исследовательская лаборатория Bell Labs создала Audrey (Одри) — машину, которая могла распознавать числа (от 0 до 9), произносимые мужским голосом. 

В 1962 в IBM показали «коробку для обуви» — компьютер Shoebox. Он понимал 16 слов на английском, включая цифры от 0 до 9, а также команды «плюс» и «минус». Человек говорил в микрофон, который трансформировал звуки голоса в электрические импульсы. Затем импульсы классифицировались по типам звуков и машина «узнавала» слово. 

В 1970-е Audrey научилась распознавать несколько голосов, а ученые из центра Carnegie Mellon создали HARPY, которая понимала уже 1 тыс. слов, что сравнимо со словарным запасом трехлетнего ребенка. 

Еще через десяток лет у технологии случился прорыв. Ученые применили статистический метод — скрытую модель Маркова. Они больше не пытались подобрать букву к каждому звуку, а затем сложить их вместе. Суть метода в том, что программа выбирает наиболее похожее по звучанию слово из доступного словаря. Это позволило повысить точность — машины стали распознавать не сотни, а тысячи слов.

На рынок технология вышла в 1990-х вместе с программой Dragon Dictate. По заявлению создателей, в ее лексическом запасе было 80 тыс. слов. Но скорость распознавания речи была низкой — людям приходилось говорить в 3–4 раза медленнее обычного, чтобы Dragon их понял. В нулевых Google запустил голосовой поиск, который работал лучше, чем Dragon. 

Следующий прорыв совершила Siri. Ее первый прототип появился почти 30 лет назад (!), в 1993 году. Создатель Siri Адам Шейер разработал около 50 версий программы, но не знал, как найти ей реальное применение и монетизировать. Ситуацию спас запуск iPhone. К февралю 2010 года команда Шейера разработала мобильное приложение Siri и загрузила его в AppStore. 

Вскоре в офис Siri позвонил сам Джобс. На встрече с создателями он сразу заявил, что хочет купить компанию. Осенью 2011, незадолго до смерти Джобса, на рынок вышел первый iPhone с поддержкой Siri. Alexa и другие голосовые ассистенты попали к потребителям позднее.

Рекомендуем почитать:

img.plivka-5fbd26f703b67930653462.jpg

10 случайных изобретений, которые изменили мир

Читать

#4. Носимые medtech-гаджеты

Еще в 1938 году чикагская компания Aurex разработала слуховой аппарат. Его создание считается первым шагом в направлении носимых медицинских устройств. 

В нулевых на рынке появились диджитал-приборы, которые измеряли пульс пользователя и давали врачам доступ к этой информации. 

В 2012 году американская компания Proteus Digital Health разработала «умную» таблетку — съедобный сенсор, который получил одобрение FDA (Управление по санитарному надзору за качеством пищевых продуктов и медикаментов В США). По задумке создателей, сенсор передавал информацию пластырю с датчиком на теле пациента, а датчик — программе на смартфоне или десктопе. Так можно было отслеживать, например, прием лекарств по графику и эффективность лечения. Но несмотря на миллионные инвестиции, компания не нашла отклика на рынке и в 2020 году стала банкротом. 

В 2018 Apple выпустили Apple Watch с мониторингом сердечного ритма и функцией ЭКГ. Но разработка вызвала беспокойство врачей из-за риска ложного срабатывания. Например, низкая частота сокращений может свидетельствовать о проблемах с сердцем, но нередко является вариантом нормы (особенно для профессиональных спортсменов). 

Сейчас на рынке есть не только браслеты, измеряющие пульс, и устройства для ЭКГ. Но еще и носки для новорожденных, которые позволяют мониторить показатели ребенка, а также инсулиновые помпы для больных диабетом. Все устройства можно разделить на четыре типа:

  • умные фитнес-браслеты
  • умные часы, отслеживающие изменения сердцебиения
  • приборы для кардиомониторинга и измерения давления, которые крепятся на тело (холтеры)
  • биосенсоры

Согласно исследованиям Insider Intelligence, только в США количество пользователей приложений для здоровья и фитнеса к 2022 году составит около 84 млн. 

О том, как носимые устройства работают с данными, можно прочесть здесь. А тут — о продуктах украинского medtech-стартапа Mawi.

Хотите получать дайджест статей?

Одно письмо с лучшими материалами за неделю. Подписывайтесь, чтобы ничего не упустить.
Спасибо за подписку!
Курси з теми:
"Compensation&Benefits"
HR и рекрутинг
Ведет Ирина Андреева
11 ноября 16 декабря
Ирина Андреева