Сайт СФУ
Сибирский форум. Интеллектуальный диалог
октябрь / 2015 г.

Кодовое слово

Что такое компьютерная лингвистика, как машины и системы могут облегчить нам жизнь и зачем кодировать 90-томник Льва Толстого? Мы поговорили об этом с Анастасией БОНЧ-ОСМОЛОВСКОЙ, академическим руководителем образовательной программы «Теория языка и компьютерная лингвистика» в Высшей школе экономики. Анастасия приехала в СФУ на международную научно-практическую конференцию «Информационные технологии в гуманитарных науках», которая прошла в сентябре.

На конференции в СФУ

На конференции в СФУ

— Чем занимается компьютерная лингвистика?

— Прежде всего — автоматическим анализом языка. Сейчас текст существует в цифровом виде, в объёме немыслимых терабайтов. Ежедневно мы поглощаем огромное количество готовых к обработке текстовых данных, и компьютерная лингвистика предлагает некоторые технологии, которые должны облегчить нам жизнь.

Вообще, есть несколько пониманий компьютерной лингвистики. Есть автоматизация лингвистических исследований; например, создаются базы данных, языковые корпуса и так далее — это одна история. Вторая история — это инженерная лингвистика. Как сделаны «Яндекс. Новости»? Иногда возникают такие казусы, что на «Яндексе» что-то не то показывают, и власти даже начинают говорить: «А что это у вас там такое?» А «Яндекс. Новости» отвечают: «Ничего не знаем, мы ничего редактировать не можем, это система». Они агрегируют уже готовую информацию, их технология состоит в том, что система подбирает, объединяет статьи на одну тему, определяет, что является наиболее «горячей», популярной темой. Система автоматически, без участия человека собирает из этих статей как бы маленькое резюме — пять главных событий дня, из которых складывается картина дня. Это пример того, чем пользуются миллионы пользователей и даже не знают, что это результат работы лингвистической технологии.

Бывают технологии, где больше математики, чем лингвистики, бывает наоборот. Но я совершенно убеждена: чтобы делать адекватные компьютерные модели языка, нужно немного понимать про то, как функционирует язык.

— Когда мы на первом курсе вместе с филологами изучали математику, они тихо между собой бубнили: только в школе отмучились, сдали ЕГЭ по математике, а тут опять цифры. Сочетание лингвистики с негуманитарными дисциплинами сегодня уже нормальная практика?

— Мне трудно говорить про сегодня, потому что я училась на отделении теоретической и прикладной лингвистики МГУ, которое существует с 1960-х годов. Именно в 1960-е, в разгар так называемого структурализма, отделение было создано как сплав филологических и математических наук. Тогда были некоторые идеальные представления, что сейчас мы составим формулы, которые опишут весь язык. В дальнейшем эти представления эволюционировали, но сама по себе образовательная модель оказалась невероятно успешной.

Оказывается, что даже если человек не становится лингвистом, он умеет хорошо анализировать непростые тексты, понимать в них суть, понимать связь событий, у него достаточно структурным образом устроены мозги, и при этом у него есть определённый гуманитарный кругозор. Это та самая междисциплинарность, которая сейчас так вошла в моду.

Магистратура по компьютерной лингвистике в «Вышке», которой я руковожу, продолжает эту традицию. Мы начали нашу магистратуру в тот момент, когда у нас ещё не было своих бакалавров. И столкнулись с тем, что должны брать всех, кто придёт, построить программу так, чтобы учить и гуманитариев, и людей с техническим бэкграундом. Сейчас мы это и делаем: учим программированию, математике, лингвистике, сложным междисциплинарным проектам.

— Грубо говоря, соединили «физиков» и «лириков»?

— Мне кажется, что в самой этой формуле есть анахронизм. Сам факт, что так называемые физики с так называемыми лириками могут вести какой-то плодотворный разговор, совершенно общее место. На конференции мне очень понравился доклад Росса ПАРРИ, специалиста по «дигитальному наследству», в котором он ввёл термин «постдисциплинарность». Самые хорошие результаты получаются, когда над одним объектом работают люди с разным бэкграундом. Словарь могут делать и программист, и лингвист, ресурс — и биолог, и культуролог, и математик, и программист. У каждого есть свой вклад, в итоге получается прекрасная командная работа.

— «Компьютер» и «лингвистика» в «компьютерной лингвистике» равнозначны или всё-таки что-то доминирует?

— Это очень правильный вопрос, он непростой. Когда мы открывали программу нашей магистратуры, я провела некоторый research: взяла сведения о том, в каких американских университетах есть программы по компьютерной лингвистике, и посмотрела, на каких департаментах они располагаются. Выяснилось, что там есть некоторый баланс между computer science и linguistic department.

Компьютерная лингвистика — очень большая область, и, безусловно, есть некая инженерия, которая является продолжением именно computer science, где язык — это некоторая сложная последовательность знаков, которую мы можем обрабатывать с помощью определённых методов (нули и единицы, например). Мы ужасно много можем теперь сделать с помощью вот этих математических моделей. Например, слово «мыла» в предложении «мама мыла раму» — это существительное «мыло» или глагол «мыть»? Как научить компьютер правильно отвечать на этот вопрос? Теперь для этого не нужно писать сложные правила, мы можем получить ответ на основе наших ожиданий после обработки большого количества лингвистических данных.

Но, с другой стороны, есть и лингвистическая сторона. В языке очень много тонких вопросов, которые гораздо сложнее, чем классификация по частям речи, для которых нет таких огромных массивов данных. В редких языках, например.

Для решения узких задач требуется хорошее лингвистическое образование. Статистические правила прекрасно работают до определённого уровня качества. А качество в 90% — это ошибки в каждом десятом слове. Представьте себе текст. И вот с помощью лингвистического анализа тех ошибок, которые у тебя есть, ты можешь что-то поменять и существенно улучшить качество работы программ.

И последняя история, которая сейчас меня страшно интересует, — это когда мы используем компьютерные методы для того, чтобы исследовать язык. То, что сейчас делается в некоторых западных институтах. Например, у нас есть некоторая теоретическая модель, и мы с помощью тех же самых корпусных данных можем проверить, насколько правильно она предсказывает. Очень часто эти исследования смыкаются с психолингвистикой.

Например, я недавно читала статью о том, как по-разному устроены языковые модели, построенные на ответах американцев и австралийцев. От чего зависит выбор конструкций в предложениях типа «John gave Mary a book» и «John gave a book to Mary»? Оказывается, что при одинаковом наборе лингвистических факторов выбор конкретной конструкции будет разным у носителей разных диалектов английского. Это удаётся показать с помощью компьютерных предсказательных моделей и психолингвистических экспериментов.

По сути опять та же самая постдисциплинарность, потому что мы не понимаем, что это: психология, информатика, лингвистика? Это некоторые исследования когнитивных возможностей человека. Это то, куда всё развивается.

— А если говорить не про область деятельности, а про профессию.

— Что касается профессии — сейчас прекрасное время, потому что у нас действительно много объектов для работы. Всюду электронные буковки, и с ними много кому что нужно делать. Есть очень простые задачи: на входе идёт так называемая неструктурированная информация, текст, а на выходе нужно получить структурированную информацию, таблицу. На входе у нас идёт поток писем, а на выходе нужно получить даты, которые есть в этих письмах, авторов. Таких заданий миллион.

И нужны лингвисты, чтобы вести электронные словари, писать простые правила обработки языковых данных. Они нужны не только в лингвистических компаниях, которые производят роботов. HeadHunter нанимал лингвистов для того, чтобы анализировать резюме; поисковики — Mail, Яндекс, Google — тоже нанимают лингвистов, брокерские компании. Технологии будут развиваться, чтобы облегчить нам многие задачи. И эти технологии — как раз компьютерная лингвистика.

— Я читала, что написанием новостей и в Associated Press, и в Bloobberg уже отчасти занимаются роботы и автоматические программы. Но ведь в написании сложных текстов машина всё-таки не заменит человека?

— Мои студенты в качестве образовательного проекта сделали генератор биржевых новостей для РБК, потому что журналистам скучно писать, что там произошло с акциями. Генератор порождает вполне нормальные биржевые тексты. У журналистов же остаётся больше времени на интеллектуальные задачи. Вообще, здесь очень важно не впадать в романтический транс, говоря, что никогда машина не будет переводить Шекспира. Не будет. Есть вещи, которые всё равно делают руками. Какие-то вещи имеет смысл заменять технологиями, какие-то — нет.

Например, компьютер критическим образом изменил современную индустрию перевода. На Западе современный перевод — это огромная индустрия, которая построена на взаимодействии компаний, которые занимаются машинным переводом, и компаний, которые занимаются переводом человеческим. Машины переводят, а люди правят, разрабатываются программы, которые оценивают качество того, что машина перевела. Если машинный перевод вышел совсем ерунда, его выкидывают, а если нет — отдают на правку. Это поток, конвейер, как с машинами Ford. Да, это не Шекспир, но у нас бизнес на Шекспире никто не делает, Шекспир — это не индустриальная вещь.

Писать высокую аналитику? Нет, никому не нужно, чтобы это делал компьютер, это неинтересно, это останется за человеком. Но таблица погоды, результаты футбольного матча, цены на недвижимость... Есть огромное количество стандартных статей, и гораздо дешевле их генерировать автоматически, просто подставляя нужные цифры, чем нанимать людей, платить им зарплату, социальные взносы, отпускные и так далее.

— В каких российских вузах есть направление компьютерной лингвистики?

— В «Вышке», в МГУ, в РГГУ, в МГГУ им. Шолохова, есть курсы в Бауманском университете, есть кафедра на физтехе. В этом году я столкнулась с очень большой популярностью нашей магистерской программы, это говорит о том, что спрос опережает предложение. С одной стороны, меня это устраивает, с другой стороны, я выступаю за конкурентные системы, так как любая конкуренция делает нас лучше. В этом смысле я бы приветствовала, если бы такие программы открывались в других университетах. На Западе таких программ миллион.

Сталкиваюсь с тем, что к нам приходит очень много взрослых, состоявшихся людей. Иногда это кандидаты наук, иногда люди, которые уже успели достичь неплохих успехов в профессии, но решили, что им нужно двигаться дальше. В этом году я всем, кто приходил со степенями, предлагала стать вольнослушателями, было жалко занимать бюджетные места.

Курсы дополнительного образования тоже будут очень востребованы. С тех пор как у нас появились языки программирования, которые достаточно легко освоить, которые не требуют глубоких знаний по информатике (Python, R), спрос на них огромный. Люди с гуманитарным образованием на самом деле чувствуют недостаточность своего образования, раз не могут сами обрабатывать свои данные. Не могут сами реализовать свои мечты, а они понимают, что реализовать их легко. Теперь для того, чтобы что-нибудь построить, не нужно иметь молоток и гвоздь, нужно иметь компьютер и умение немножко кодить.

— Компьютерным лингвистам легко найти работу?

— У меня почти все студенты трудоустраиваются по специальности. Но не знаю, что будет в связи с кризисом, потому что область IT-технологий страдает первой. Компьютерная лингвистика всем нужна, когда экономика растёт. Если инвестиции сокращаются, мы сидим тихо и не дёргаемся, тут лишь бы выжить, тут не до внедрения новых инструментов.

С другой стороны, область приложения этих знаний всё расширяется. Даже в медицине современная практика состоит в том, чтобы в 90% случаев следовать установленному гидлайну, основанному на результатах обработки огромного объёма данных и собравшему в себе наиболее эффективные решения в той или иной стандартной ситуации. Врач следует заранее заданному «дереву решений», и только в самых крайних случаях требуются какие-то отступления, нестандартные решения и т.д. Вообще, всё, что мы можем перевести в некоторую такую стандартную процедуру, можно автоматизировать. А поскольку эти стандартные процедуры очень часто используют естественные языки, компьютерная лингвистика прекрасно встраивается в нашу нынешнюю постиндустриальную экономику.

Я очень сильно вкладываюсь в организацию практики студентов. Объявляю открытый призыв, call for intership, чтобы представители компаний или научных коллективов присылали мне предложения. И студенты сами выбирают, куда они идут. Например, в Яндекс, Mail.ru, ABBY, в маленькие стартапы. Удивительным образом самые успешные практики как раз были в небольших компаниях, студентов там любят, ждут, там больше творческих задач, менее рутинна технология, больше нового, меньше народа. Многие студенты уже нашли работу по специальности даже после первого курса.

— Расскажите о проекте «Толстой в один клик», о котором вы делали доклад на конференции. И как в нём работает компьютерная лингвистика?

— Этот проект (которым руководила, в частности, Фёкла ТОЛСТАЯ) музей Толстого делал вместе с ABBY. Это блестящий пример краудсорсинга, невероятно вдохновляющий. 90-томник Толстого был библиографической редкостью, при том что на каждой странице написано, что «перепечатка разрешается безвозмездно» (в этом смысле Толстой у нас является предвестником creative commons, публичного отказа от авторских прав, что чрезвычайно ценно в настоящих условиях). Это 90-томное собрание сочинений было полностью оцифровано, сейчас его можно скачать на сайте tolstoy.ru.

Наш проект «Семантическое издание ПСС Толстого» (или ещё мы называем его Tolstoy Digital) идёт дальше, мы готовим новую web-версию этого издания, в котором весь критический аппарат — все ссылки, сноски, примечания, форматы — будет закодирован с помощью специальной семантической разметки. Эту семантическую разметку придумали не мы, и вообще сейчас ничего не нужно придумывать, а нужно использовать некоторые стандартные обозначения, потому что единственное спасение от хаоса дигитализации — стандарты, о которых договариваются люди. В рамках стандартного языка TEI (Text Encoding Initiative) мы сейчас и работаем, я являюсь руководителем научной группы, где работают мои коллеги из Школы лингвистики, студенты, сотрудники Ясной поляны, Фёкла Толстая. Наша деятельность поддержана грантом РФФИ.

Простой пример. Представьте, что вы цифруете том и потом хотите там что-то найти. Но у вас нет обозначения, где Толстой, а где — примечания. Всё в кучу. Первое, что мы должны сделать — поставить некоторую метку, что вот текст Толстого, а вот текст примечания.

Следующий пример. Наверное, треть текстов — дневники, письма, заметки — воспроизводятся в той орфографии, в которой они были написаны. Что нам теперь делать со старой орфографией? Ведь нам нужно иметь возможность искать, мы привыкли ничего не читать, а всё искать, с этим уже невозможно бороться. Встаёт вопрос: как искать? А у Толстого ещё очень много своей орфографии. Мои студенты в рамках магистерской программы сделали транслитератор из старой орфографии в новую. Мы также совмещаем старое написание, чтобы оно у нас могло отображаться старым, и новое, чтобы искать мы могли по-новому. Это нетривиальная задача.

Мы имеем дело с такой глыбой, с таким масштабом личности и произведений, что двигаемся потихоньку. Есть план на этот год: мы переводим xml-файлы в базовый формат, организуем отображение структуры произведений и их метаданных. Это мой любимый проект, есть ощущение, что ты делаешь очень важное дело. Он ещё и очень выгодный с точки зрения пиара: никому не нужно доказывать свою полезность. «Чем ты занимаешься?» — «90-томником Толстого».

Ещё вместе с Samsung мы делаем интерактивную «Войну и мир», проект называется «Живые страницы» time2read.ru. Кроме текста там есть очень много интерактивных сценариев, таймлайн с проекцией исторических событий, будут и карты с местами, в которых были герои. Например, можно будет посмотреть карту переплетения судеб героев, проследить, где они встречались и так далее. И из любой точки погрузиться в текст через ту цитату, которая описывает это событие. Получается такое интерактивное общение с текстом, потому что самая главная проблема с читалками, мне кажется, такая: в отличие от бумажной книги, которую ты можешь открыть на любой странице и «утонуть», в читалке ты так сделать не можешь, она не листается подобным образом. Поэтому мы пытаемся «вбрасывать» читателя в текст с разных сторон.

— Как в Интернете у человека меняются отношения с текстом?

— На это можно ответить что-то ужасно банальное, но на самом деле я считаю, что про это нужно думать. Когда у особи меняется среда обитания, она к ней как-то приспосабливается: крылья, например, у неё атрофируются, а необходимые ласты, наоборот, появляются. При этом какие крылья, жабры или ласты у нас разовьются, до конца не понятно, потому что это когнитивные штуки. Происходит массовая мутация. Да, у нас, наверное, что-то происходит с памятью: никто ничего не помнит. Но при этом, наоборот, какие-то вещи явно развиваются. Я не хочу здесь оценочных суждений, это деструктивно. Но, безусловно, об этом нужно думать. Другое дело, насколько мы можем, находясь внутри этого процесса, понять, к чему он приведёт? Ужасно интересно, что это очень быстрый процесс, буквально каждый год приносит новые проекты, которые раньше казались какой-то фантастикой.

На конференции мы обсуждали проблемы исторических источников: оригиналов и исторических копий. Один человек и сказал: давайте согласимся, что никакой виртуальный, дигитальный источник не может заменить настоящей рукописи. Я тогда подумала, что да, наверное, не может. Но, с другой стороны, какая в этом источнике содержится информация, которую нельзя воспроизвести? Например, оригинал как-нибудь пахнет. Хорошо, мы уже можем закодировать сам факт определённого запаха, специальный софт потом сможет его воспроизвести. И таких технологий много. А как их можно применять, человек одной специальности в одиночку не может придумать. Специалист всегда знает свой кусочек, и когда соединяются разные-разные люди, вдруг образуется общий vision. И это страшно увлекательно.

В кулуарах конференции у нас был хороший разговор про постдисциплинарность. Я высказала идею, что так же, как феодализм, где каждый феодал оберегал границы своего княжества, сменило буржуазное общество, так и академическую науку сменила постдисциплинарность. Для феодального общества ключом к процветанию был захват, охрана, для буржуазного — обмен и мобильность. Академическая наука тоже охраняет законы своей дисциплины, своей иерархии, свои авторитеты. А постдисциплинарность, наоборот, повёрнута на постоянном обмене открытыми знаниями и растёт за счёт этого обмена. Эти знания — некоторая новая эпоха в развитии общества и образования.

— Какие актуальные вопросы стоят перед компьютерной лингвистикой?

— Компьютерная лингвистика сейчас — огромнейшая область, она уже распалась на отдельные дисциплины, которые ещё и перемешиваются каждый день. Есть инженерные задачи, есть индустрия машинного перевода, есть индустрия синтеза и распознавания речи — огромная, важнейшая, имеющая сейчас большое гуманитарное значение, так как голосовой поиск и голосовое управление обеспечивают инвалидам другое качество жизни.

Ещё одно важное направление — модульность. В современной экономике работают цепочки: корпус для какого-то продукта делается в одной стране, содержимое — в другой, а собирается продукт в третьей стране, так как там дешевле рабочая сила. Также и в компьютерной лингвистике: ты берёшь распознавание речи из одной системы, диалоговый анализатор — из другой системы и сам делаешь такой кубик или шарик, который теперь с тобой разговаривает, даёт информацию: о пробках, погоде. Такие «кубики»-«шарики» уже есть, между прочим, и в России.

Да, в телефоне есть Siri, но телефон не всегда удобно держать. Иногда удобно спросить о чём-то, когда у тебя руки грязные — ты котлеты жаришь. Или ты одинокая женщина и можешь просто пообщаться с этим шариком. Это уже маркетинговая оболочка, отдельная добавочная стоимость. Сейчас лингвистика — про добавочную стоимость. Выигрывает тот, кто понимает, как она добавит привлекательности продукту.

Анна ГРУЗДЕВА