Пандемия коронавируса внесла коррективы в различные сферы жизни миллиардов людей, а обязательным "аксессуаром" пары последних сезонов стала медицинская маска. Но оказалось, что голосовые боты, цифровые секретари и прочие автоматизированные системы связи, массово внедряемые крупными компаниями по всему миру, не готовы эффективно работать при новых стандартах безопасности: искусственному интеллекту очень сложно "понять" речь человека в медицинской маске и дать нужный ответ. Проект по решению этой глобальной задачи в России ? научить компьютер понимать речь человека в маске ? Российскому фонду фундаментальных исследований предложила группа молодых ученых из Санкт-Петербурга, грантовая поддержка которых является одной из ключевых задач нацпроекта "Наука". В чем уникальность исследования и что необходимо, чтобы обучить искусственный интеллект "видеть" и "слышать" сквозь маску, узнал корреспондент портала "Будущее России. Национальные проекты", оператором которого является информационное агентство ТАСС.
Компьютерные системы распознавания окружают современного человека повсюду. Наиболее простыми из них являются системы записи видео- или аудиоинформации. Часто они используются для контроля безопасности на улицах города или в различных учреждениях.
Последние десятилетия искусственный интеллект применяется для определения личности человека по его уникальным биометрическим показателям, например по изображению лица или голосу.
Гораздо более сложными являются так называемые многомодальные системы. Они обеспечивают взаимодействие между человеком и машиной, когда компьютер с помощью камеры и микрофона понимает речь, жесты или мимику человека и может ему ответить. Сегодня такие программы активно используются в качестве секретарей в больницах, крупных компаниях и кол-центрах: они могут отвечать на вопросы, давать советы, сообщать справочную информацию и обслуживать сотни абонентов сразу.
"Во время распространения эпидемии в мире стремительно распространяется медицинская маска. Это единственный дешевый и в то же время эффективный фактор, который позволяет сдерживать распространение вируса. Однако исследования показывают, что при взаимодействии человека в медицинской маске с искусственным интеллектом речь значительно искажается, а если маска сложная, то речь вообще изменяется. Соответственно, боты, отвечающие на телефонные звонки, не понимают, что говорит абонент, а биометрические системы, например в банке, не работают ? посетители на одно лицо, и люди не могут получить доступ к своему имуществу. Сейчас стало ясно, что системы распознавания нуждаются в серьезной адаптации к условиям пандемии", ? говорит руководитель гранта, заведующий лабораторией речевых и многомодальных интерфейсов Санкт-Петербургского федерального исследовательского центра РАН Алексей Карпов.
Многомодальные интерфейсыРазработки в сфере взаимодействия между человеком и компьютером являются сегодня одними из наиболее перспективных в области искусственного интеллекта. Поэтому ими занимаются крупнейшие представители IT-отрасли: Google, Facebook, Microsoft, Baidu, Amazon, Huawei и другие. В России сфера многомодальных технологий пока развита слабо, всего несколько научных коллективов по всей стране обладают необходимыми компетенциями в этой дисциплине. По словам Карпова, исторически сложилось, что признанный центр обработки речи находится в Санкт-Петербурге.
"Наша лаборатория была создана в 1980-е годы. Мы занимаемся распознаванием речи, преобразованием речи в текст, синтезом речи, обратным преобразованием текста в речь. Все это можно назвать паралингвистикой. Исследования были начаты в советские годы профессором Косаревым, который стал основателем научной школы, посвященной направлению. С тех пор центром речевых технологий и является Петербург <?> Примерно 80% специалистов по этой тематике в стране ведут исследования в Петербурге", ? отмечает Карпов.
Ученый добавляет, что за прошедшие 30 лет его лаборатория научила компьютер распознавать речь человека в самых сложных условиях, даже в том случае, если у говорящего есть какие-либо заболевания или увечья, искажающие речь. Так, петербургские ученые разработали первую в РФ систему распознавания жестового языка глухих людей. Кроме того, были созданы не имеющие аналогов в стране многомодальные интерфейсы для тех, у кого были парализованы руки, и другие проекты. "Поэтому, когда мы столкнулись с пандемией и теми трудностями, которые она создавала для искусственного интеллекта, у нас уже имелся опыт решения подобных задач", ? поясняет ученый.
Международный опытПо словам Карпова, проект распознавания речи людей в масках, над которым сейчас работают петербургские ученые, органично вырос из опыта участия в пяти международных соревнованиях по компьютерной паралингвистике?ComParE(Computational Paralinguistics Challenges), которые ежегодно проводятся в рамках международной конференции?Interspeech?? наиболее статусного форума в сфере речевых и многомодальных технологий.
Организаторы соревнований каждый год предлагают участникам задания по распознаванию речи в различных условиях, для участия они выкладывают базы данных высказываний или звуков, которые издают люди разного пола и возраста в различных условиях. Побеждает команда, предложившая наиболее верные решения.
"Мы участвуем в этих соревнованиях в течение пяти лет, из них последние три года выигрывали соревнования Interspeech ComParE совместно с нашими турецкими коллегами. Каждый раз задачи были совсем нетривиальные. В первый раз мы представили наилучшее распознавание речи в задании, где требовалось определить тип еды по речи человека по время приема пищи. На следующий год было задание понять, когда человек врет, по его речи. Да, есть такие особенности в разговоре с человеком, который врет. Например, он совершает определенные паузы, говорит медленнее и так далее. Там мы снова победили. В 2017 году нужно было прослушать аудиозаписи храпа людей и на каждой из них определить тип храпа согласно медицинской классификации, это необходимо для диагностики заболеваний во время сна", ? вспоминает ученый.
Наконец, в начале 2020 года организаторы соревнований из Шанхая выдвинули на конкурс задачу распознать по речи человека, говорит ли он в маске или без нее, рассказывает Карпов. "Мы подали свою заявку, получили базу данных немецкой речи трех десятков людей (врачей) на несколько часов и приступили к работе. Оказалось, что даже самая обычная маска существенно влияет на способности компьютера к распознаванию. Мы поняли, что это очень актуальная тема, большая и долгоиграющая, учитывая, как разворачиваются в мире события с пандемией. Поэтому мы решили запустить собственный проект на русском языке, который был поддержан Российским фондом фундаментальных исследований по недавно открытому направлению, связанному с фундаментальными проблемами распространения коронавирусных инфекций", ? говорит Карпов.
Научить нейросетьПетербургские ученые сейчас формируют перечень задач, которые необходимо решить в ближайшие два года выполнения проекта, рассказывает ученый. Он считает, что к этому времени наверняка удастся придумать эффективное лекарство от коронавирусной инфекции, однако защитная маска теперь навсегда останется обязательным атрибутом человека: новый опасный вирус может появиться в любое время.
"На сегодняшний день единственное исследование, которое мы пока закончили, ? это анализ базы данных по конкурсу ?Интерспич?. Благодаря проделанной работе мы поняли, что речь искажается из-за типа маски: тряпичная или медицинская маска, пластиковый щиток или респиратор, сбором таких многомодальных данных на русском языке мы сейчас занимаемся в наших теоретических построениях", ? поясняет Карпов.
По его словам, параллельно ученые разрабатывают способы распознавания человека в маске с помощью камер, когда более половины, а иногда и до 90% его лица закрыто или искажено. "Тут остается сосредоточиться на том, что у нас имеется ? глаза (а иногда и они закрыты очками), лоб и уши. Дополнительная сложность, и ее надо учитывать, ? принты на масках, это могут быть геометрические рисунки, животные и даже изображение части лица другого человека. Компьютер должен уметь это все различать. Соответственно, сейчас мы адаптируем компьютерные алгоритмы на основе искусственных нейросетей для работы в таких условиях, но это потребует значительно скорректировать модель распознавания", ? поясняет ученый, добавляя, что разработки по проекту могут повысить эффективность многомодальных интерфейсов практически во всех сферах, где они используются сейчас: на улицах, в банках, магазинах и больницах. В некоторых странах такие системы востребованы в клиниках, чтобы без камер с помощью распознавания речи определять людей без масок.
"Одна из главных задач в нашем проекте ? создать русскоязычную базу данных людей в масках, ее пока просто нет. Мы будем создавать ее сами, опрашивая сотрудников нашего института, студентов и прочих добровольцев. В идеале нам нужны десятки часов записи и десятки дикторов разного пола, от детей до пожилых. Для небольшого коллектива нашей лаборатории это серьезная задача, но без нее ничего не получится. Мы ставим себе цель собрать такую базу данных и обучить по ней искусственный интеллект, чтобы уже в следующем году представить действующий прототип системы распознавания", ? отмечает Карпов.