Компьютерная лингвистика где учиться

Обновлено: 07.07.2024

Data scientist — труднопереводимый на русский язык термин, обозначающий специалиста, который одновременно разбирается в IT (способен программировать, придумывать и решать алгоритмические задачи), математике и статистике, а также хорошо знает определенную отрасль бизнеса или науки, где и может применить вышеперечисленные знания. Аналитики данных нужны везде — от спорта (вспомним знаменитый байопик «Человек, который изменил все» — про спортивного менеджера, впервые использовавшего статистические методы при подборе бейсбольных игроков в команду) до транспорта и добычи полезных ископаемых. По расчетам McKinsey Global Institute, к 2018 году в одних только США понадобится дополнительно 190 тысяч профессионалов такого рода.

Получив подобное образование, не прогадаешь в любом случае, но одно из самых перспективных направлений, где data scientist может приложить свои способности, — это медицина, в которой сейчас происходит много громких прорывов (от редактирования генов до 3D-печати органов). Важную роль играет и «революция больших данных» — благодаря разным гаджетам и приложениям исследователи и врачи-диагносты могут быстро собирать и анализировать огромное количество информации. Человек, способный управлять такими базами данных и ориентироваться в них, точно не останется без работы.

Где учиться:


  • дистанционная сертификация Healthcare Data Analyst, проводится Bellevue College, на программе рассматривают инструменты для анализа и визуализации медицинских данных;
  • онлайн-курс Data Analytics in Health — From Basics to Business на сайте EdX, программа курса рассчитана на обучение анализу медицинских данных и использованию big data для улучшения здоровья и сферы здравоохранения; , колледж при технологическом университете Кларксона; ».

Компьютерный лингвист

Нам все чаще приходится искать общий язык с машинами, так что в дальнейшем, очевидно, будет активно развиваться самая «точная» ветвь лингвистики, находящаяся на стыке с математикой и IT.

Компьютерные лингвисты могут работать по нескольким направлениям. Во-первых, это разработка алгоритмов распознавания текста и речи. Такие алгоритмы могут использоваться, например, в «умных домах» и при общении с роботами (а владельцы iPhone уже сейчас могут беседовать с виртуальным помощником Siri). Тут есть, над чем поработать: человеческая речь очень сильно различается в устах разных спикеров, и компьютеру сложно ее распознавать.

Вторая крупная задача — синтез искусственной речи. Тут технологии пока тоже несовершенны: искусственно созданная речь звучит неестественно, а точная имитация интонаций, пауз и модуляций человеческого голоса требует кропотливой работы. Кроме того, компьютерные лингвисты создают системы семантического перевода — пока тексты, переведенные в Google Translate, еще режут глаз, но в будущем программы смогут заменить живых переводчиков.

Где учиться

Пока в нашей стране достаточно сильно разделены специальности, связанные с классической лингвистикой и с IT. В зарубежных вузах есть программы высшего образования по компьютерной лингвистике, но в России проще получить базовое лингвистическое образование, а затем дополнительное — в области IT:

  • бакалавриат «Фундаментальная и компьютерная лингвистика» в Высшей школе экономики,
  • магистратура «Прикладная математика и информатика» в МФТИ (в числе изучаемых дисциплин есть и компьютерная лингвистика),
  • магистратура «Фундаментальная и прикладная лингвистика» в РГГУ,
  • бакалавриат «Фундаментальная и прикладная лингвистика» в МГУ им. Ломоносова,
  • бакалавриат «Прикладная информатика в области искусств и гуманитарных наук», СПбГУ.

Специалист по машинному обучению

Этот специалист учит компьютер «думать»: составляет алгоритмы, по которым машина будет усваивать и анализировать информацию, выстраивать причинно-следственные связи и делать логические умозаключения. Идея устройства искусственного интеллекта по образу и подобию человеческого привела к созданию так называемых нейронных сетей: используя алгоритмы, которые имитируют процессы, происходящие в реальных клетках мозга, можно заставить программу «учиться». Это помогает ей гибко решать сложные задачи — от распознавания лиц и перевода с одного языка на другой до составления прогнозов.

Где учиться:

    .
  • Базовый курс «Аналитика с использованием машинного обучения на платформе Microsoft Azure ML», ЦКО «Специалист» при МГТУ им. Баумана. .
  • Курс «Машинное обучение и анализ данных» на Coursera (разработан МФТИ совместно с «Яндексом»).

Разработчик нейроинтерфейсов

Мы переходим от громоздких компьютеров и ноутбуков к носимым гаджетам, которые постепенно сливаются с одеждой и аксессуарами (куртки и рюкзаки уже умеют подзаряжать мобильные телефоны благодаря встроенным солнечным батареям, а фитнес-браслеты синхронизируются со смартфонами). Следующий этап — интерфейсы для управления киберпротезами, компьютерами и роботами, совместимые с нервной системой человека. Пока они используются в основном для развлечений, но в будущем с их помощью можно будет управлять сложными приборами. Специалист по разработке нейроинтерфейсов должен будет разбираться в психологии, нейробиологии и IT, чтобы создавать гаджеты для идеального взаимопонимания между нашим мозгом и машинами. Можно специализироваться на «железе» (специальных шлемах с датчиками, вроде Emotiv Epoc), а можно разрабатывать приложения, в том числе и мобильные, позволяющие использовать эти шлемы в разных целях.

Речь пойдет не об единичных курсах, посвященных этой интересной науке, а о том, как специалист, уже имеющий диплом мат-меха или другого технического факультета, может получить полноценное образование, связанное с компьютерной лингвистикой. Самый простой способ — поступить в профильную магистратуру. Но это только кажется простым, потому что такую магистратуру еще нужно найти. Потратив некоторое время на изучение проблемы, мне удалось выбрать несколько вариантов. Своими находками я хочу поделиться с уважаемыми хабровчанами. Думаю, это будет интересно в особенности будущим бакалаврам и специалистам, которые размышляют над проблемой «куда пойти учиться дальше?».

Впрочем, и люди, для которых учеба давно окончена, могут задуматься о получении магистерского диплома, ведь поступить в магистратуру, как известно, можно и через несколько лет после окончания учебы.

Итак, компьютерная лингвистика — молодая, но очень перспективная наука. А главная особенность этой науки в том, что она считается междисциплинарной, то есть изучает проблемы, стоящие на стыке программирования и языкознания. И для того, чтобы стать полноценным специалистом в этой области, нужно хорошо разбираться и в математике и в лингвистике.

Программы обучения делятся на программы для филологов, которые хотят связать свою жизнь с лингвистическими разработками в IT, и для математиков, желающих работать над системами распознавания текста, переводческими программами и т.д. Мы остановимся на втором варианте.

Сразу хочу оговориться, что таких магистратур в России — единицы, и обычно они курируются компаниями, занимающимися лингвистическими разработками. Большинство программ, посвященных компьютерной лингвистике, находится в столицах.

Начну с той магистратуры, которая показалась мне самой интересной. Она находится в Санкт-Петербурге, на базе СПбГУ на кафедре информационных систем в искусстве и гуманитарных науках. Хочу сразу отметить, что кафедра находится на гуманитарном факультете, но рассчитана именно на программистов. Образовательная программа называется «Инженерия гуманитарных знаний». Целевая установка магистратуры — (цитирую сайт) «подготовка специалистов, способных участвовать в исследовательской и проектной работе в области интеллектуальных информационных технологий со специализацией в направлении языковой инженерии, технологий извлечения гуманитарных знаний из текстового потока, онтологической инженерии».

Чтобы туда поступить, требуется сдать письменный тест, в котором будут вопросы по математике, основам программирования и (немножко) по языкознанию. Пугаться вопросов по последней дисциплине математикам не стоит: судя по списку литературы, двух-трех несложных книг, озаглавленных «Введению в языкознание», вполне хватит, чтобы сдать вступительные испытания. Из собственных источников мне стало известно, что курирует эту образовательную программу компания Яндекс, правда на сайте магистратуры об этом не упоминается.

Вторая магистратура, о которой бы хотелось рассказать, находится в Москве на кафедре распознавания изображений и обработки текста факультета инноваций и высоких технологий (ФИВТ) в МФТИ. Она была основана в 2006 году компанией ABBYY. Судя по описанию, из нескольких программ магистратуры, предлагаемых этой кафедрой, к компьютерной лингвистике больше всего относятся направления «Интеллектуальные системы» и «Методы машинного обучения». Чтобы попасть туда учиться, нужно не только сдать вступительный экзамен, но и пройти собеседование с сотрудниками компании ABBYY. Все-таки в ABBYY рассчитывают, что потом выпускники пойдут работать к ним.

И последняя магистерская программа, о которой я поведаю, так и называется «Компьютерная лингвистика» и находится на факультете филологии ВШЭ. Как следует из добытой мной информации, она есть в Москве и в Нижегородском отделении Вышки. Представители университета считают, что эта программа подходит не только для математиков, но и для выпускников с другим базовым образованием. Обучение предполагает как курсы по программированию, призванные подтянуть выпускников гуманитарных специальностей, так и курс общей лингвистики, рассчитанной на математиков.

Чтобы поступить в эту магистратуру, нужно сдать экзамен по иностранному языку и оформить портфолио, в котором должно быть мотивационное письмо и информация о будущем студенте. Нужно будет рассказать о своих профессиональных интересах, публикациях, практиках, которые проходил и т.д. Преподавателями будут сотрудники факультета филологии, общеуниверситетской кафедры высшей математики, отделения прикладной математики и информатики, базовой кафедры Яндекса.

В общем, выбор у выпускников, которые решат заниматься компьютерной лингвистикой, есть. Пока он невелик, но, думаю, в будущем таких программ станет намного больше.

Думаю, на этом закончить свой обзор.
За помощь в подготовки статью благодарю Яндекс и Гугл, официальный сайт компании ABBYY, а также сайты вузов, о которых шла речь в посте.

День открытых дверей РГГУ

УНЦ компьютерной лингвистики была открыта в Институте лингвистики РГГУ в 2011 году при участии компании ABBYY и поддержке российского отделения IBM. УНЦ готовит профессиональных лингвистов, способных эффективно работать в области разработки инновационных языковых компьютерных технологий. С 2012 года УНЦ будет осуществлять подготовку магистрантов по программе «Компьютерная лингвистика» направления «Фундаментальная и прикладная лингвистика».

Компьютерная лингвистика является относительно новой областью научной и инженерной деятельности. Актуальность создания данной магистерской программы определяется тем, что в последние 10-15 лет наблюдается бурное развитие этой области, связанное со всё растущим влиянием Интернета и появлением огромного количества новых технических устройств, важнейшей частью которых являются естественно-языковые интерфейсы. Кроме того, в современной лингвистике происходит стремительный переход от традиционных методов получения языковых данных к корпусным методам, требующим серьёзного развития компьютерных технологий.

Очевидная, возрастающая год от года потребность в специалистах, способных участвовать в разработке соответствующих технологий, не подкреплена ещё, к сожалению, наличием адекватного образовательного стандарта в системе российского образования. Предлагаемая программа является одной из первых попыток определения того, какие именно специалисты требуются отрасли.

Область деятельности, связанная с решением задач автоматической обработки Естественного Языка (ЕЯ) и именуемая «Компьютерная лингвистика», требует подготовки специалистов двух принципиально отличающихся направлений: лингвистов и инженеров. Эти направления базируются на двух совершенно разных системах образования:

  • «Компьютерная лингвистика для инженеров» является частью т.н. Computer Science. В рамках этого направления готовятся инженеры, способные эффективно решать задачи автоматической обработки ЕЯ, опираясь на необходимые для конкретной задачи существующие лингвистические ресурсы и модели. УНЦ способствует появлению таких специалистов, взаимодействия с техническими вузами. В частности, с участием УНЦ компьютерной лингвистики РГГУ создаётся «параллельная» магистерская программа по компьютерной лингвистике для инженеров в МФТИ.
  • «Компьютерная лингвистика для лингвистов» является разделом теоретической и прикладной лингвистики. В рамках этого направления готовятся лингвисты, способные решать задачи создания формальных языковых моделей и выполненных на их основе лингвистических ресурсов, обладающих необходимыми свойствами для их применения в задачах автоматической обработки ЕЯ. Именно это направление реализуется магистерской программой «Фундаментальная и компьютерная лингвистика», созданной силами УНЦ.

Важнейшим обстоятельством является то, что специалисты, подготовленные в рамках этих двух направлений, являются необходимыми участниками любых серьезных проектов в области автоматической обработки ЕЯ. И хотя они выполняют существенно различающиеся функции, умение эффективно взаимодействовать между собой является ключевым фактором в успехе таких проектов. Основы такого взаимодействия закладываются в программах за счет серьёзной инженерной и математической подготовки лингвистов (и соответствующей лингвистической подготовки инженеров).

Таким образом, подготовка магистров по компьютерной лингвистике в данной программе основывается на глубоком изучении фундаментальных основ лингвистики с акцентом на методы создания операциональных формальных моделей языковой системы, адекватных сложности таких задач обработки естественного языка, как распознавание и синтез речи, машинный перевод, семантический анализ и понимание текста, интеллектуальный поиск.

Специфика УНЦ отражена в следующих разделах:

1. Формальные модели языка (с акцентом на перспективах прикладного использования);

2. Инструментальное направление: специализированные языки и пакеты для лингвистов (типа NLTK, R И т.п.), имеющиеся ресурсы (от грамматик и парсеров до онтологий);

3. Прикладное направление (отдельные важные задачи NLP, как они решаются, как используется лингвистика);

4. Математическая и инженерная подготовка. Статистика, формальные грамматики, представление о методах машинного обучения.

Магистрантам направления «Компьютерная лингвистика» УНЦ читает следующие курсы:

  • Математические основы компьютерной лингвистики. Обзорный курс основных математических методов, применяемых в компьютерной лингвистике: математическая логика; теория вероятностей и статистика; формальные грамматики; теория алгоритмов, в частности - понятие сложности алгоритма; машинное обучение;
  • Программирование лингвистических задач (NLTK и R). Задача курса – обучение студентов работе с доступными интерпретаторами на основе языка Python. Краткое введение в методы программирования в целом;
  • Общая и компьютерная лексикография (по программе Lexicom). Курс знакомит студентов с принципами современной системной лексикографии; с новыми методиками лексикографической работы, включая корпусные методы. Рассматриваются современные компьютерные системы создания словарей, анализируются новые тенденции в лексикографии (вики-проекты, экспертные методы оценки филиации и т.п.);
  • Модели и методы автоматической обработки текста (NLP/АОТ). Обзорный курс, состоящий из двух частей (матричный, с разными лекторами): основные лингвистические модели + основные решаемые задачи. Курс методически связан с курсом «Математические основы лингвистических исследований». Первая часть курса носит резюмирующий характер и опирается на системные знания о языке, полученные магистрами в ходе обучения в бакалавриате по лингвистическим специальностям (эти знания являются необходимыми для сдачи вступительного экзамена);
  • Лингвистические и онтологические модели. Идеологически очень важный курс, перебрасывающий мостик между лингвистическими и экстралингвистическими моделями. В курсе рассматривается интерфейс между лексико-семантическими и онтологическими описаниями (в частности, проект Игоря Богуславского). Анализируются современные лингво-онтологические ресурсы (*net), современные проекты «мэппинга» между ними (Марта Палмер и К);
  • Корпусная лингвистика. Рассматриваются проблемы создания и оценки корпусов. Интернет как корпус. Методы автоматического создания корпусов. Анализ методов использования корпусов в лингвистических исследованиях (оценка значимости полученных статистических результатов).
  • Лингвистическое аннотирование и разметка. Языки и методы разметки, начиная с XML. Идеологически близко курсу Хови;
  • Машинный перевод;
  • Методы оценки NLP-приложений;
  • Формальные модели и ресурсы основных мировых языков (неиндоевропейских);
  • Информационный поиск;
  • Вопросно-ответные системы (спецкурс IBM);
  • Специализированные лингвистические базы данных.

Студентам Института Лингвистики (специалитет, бакалавриат, магистратура) УНЦ читает следующие курсы:


На филфаке Высшей школы экономики запускается новая магистерская программа, посвященная компьютерной лингвистике: тут ждут абитуриентов с гуманитарным и математическим базовым образованием и всех, кому интересно решать задачи в одной из самых перспективных отраслей науки. Ее руководитель Анастасия Бонч-Осмоловская рассказала «Теориям и практикам», что такое компьютерная лингвистика, почему роботы не заменят человека и чему будут учить в магистратуре ВШЭ по компьютерной лингвистике.

— Эта программа — чуть ли не единственная такого рода в России. А вы где сами учились?

— Я училась в МГУ на отделении теоретической и прикладной лингвистики филологического факультета. Попала туда не сразу, сначала поступила на русское отделение, но потом всерьез увлеклась лингвистикой, и меня привлекла атмосфера, которая остается на кафедре сих пор. Самое главное там — хороший контакт между преподавателями и студентами и их взаимная заинтересованность.

Два ресурса для лингвиста: Национальный корпус русского языка — сайт, созданный лингвистами для научных и прикладных исследований, связанных с русским языком. Это модель русского языка, представленная с помощью огромного массива текстов разных жанров и периодов. Тексты снабжены лингвистической разметкой, с помощью которой можно получать информацию о частотности тех или иных языковых явлений. Ворднет — огромная лексическая база английского языка, главная идея Ворднета — связать в одну большую сеть не слова, но их смыслы. Ворднет можно скачивать и использовать для собственных проектов.

— А чем занимается компьютерная лингвистика?

— Это максимально междисциплинарная область. Тут самое главное понимать, что творится в электронном мире и кто тебе поможет сделать конкретные вещи.

Нас окружает очень большое количество дигитальной информации, существует множество бизнес-проектов, успех которых зависит от обработки информации, эти проекты могут относиться к сфере маркетинга, политики, экономики и чего угодно. И очень важно уметь обращаться с этой информацией эффективно — главное не только быстрота обработки информации, но и легкость, с которой ты можешь, отсеяв шум, достать те данные, которые тебе нужны, и создать из них цельную картину.

Раньше с компьютерной лингвистикой были связаны какие-то глобальные идеи, например: люди думали, что машинный перевод заменит человеческий, вместо людей будут работать роботы. Но сейчас это кажется утопией, и машинный перевод используется в поисковых системах для быстрого поиска на незнакомом языке. То есть сейчас лингвистика редко занимается абстрактными задачами — в основном какими-то маленькими штучками, которые можно вставить в большой продукт и на этом заработать.

Одна из больших задач современной лингвистики — семантический web, когда поиск происходит не просто по совпадению слов, а по смыслу, а все сайты так или иначе размечены по семантике. Это может быть полезно, например, для полицейских или медицинских отчетов, которые пишутся каждый день. Анализ внутренних связей дает много нужной информации, а читать и считать это вручную невероятно долго.

В двух словах, у нас есть тысяча текстов, надо разложить их по кучкам, представить каждый текст в виде структуры и получить таблицу, с которой уже можно работать. Это называется обработка неструктурированной информации. С другой стороны, компьютерная лингвистика занимается, например, созданием искусственных текстов. Есть такая компания, которая придумала механизм генерации текстов на темы, на которые человеку писать скучно: изменение цен на недвижимость, прогноз погоды, отчет о футбольных матчах. Заказывать человеку эти тексты гораздо дороже, притом компьютерные тексты на такие темы написаны связным человеческим языком.

— Разработками в области поиска неструктурированной информации в России активно занимается «Яндекс», «Лаборатория Касперского» нанимает исследовательские группы, которые изучают машинное обучение. Кто-то на рынке пытается придумать что-то новое в области компьютерной лингвистики?

**Книги по компьютерной лингвистике:**



Кристофер Маннинг, Прабхакар Рагхаван, Хайнрих Шютце, «Введение в информационный поиск»


— Большинство лингвистических разработок является собственностью больших компаний, практически ничего нельзя найти в открытом доступе. Это тормозит развитие отрасли, у нас нет свободного лингвистического рынка, коробочных решений.

Кроме того, не хватает полноценных информационных ресурсов. Есть такой проект, как Национальный корпус русского языка. Это один из лучших национальных корпусов в мире, который стремительно развивается и открывает невероятные возможности по научным и прикладным исследованиям. Разница примерно как в биологии — до и после.

Но многие ресурсы не существуют на русском языке. Так, нет аналога такому замечательному англоязычному ресурсу, как Framenet — это такая концептуальная сеть, где формально представлены все возможные связи какого-то конкретного слова с другими словами. Например, есть слово «летать» — кто может летать, куда, с каким предлогом употребляется это слово, с какими словами оно сочетается и так далее. Этот ресурс помогает связать язык с реальной жизнью, то есть проследить, как ведет себя конкретное слово на уровне морфологии и синтаксиса. Это очень полезно.

В компании Avicomp сейчас разрабатывается плагин для поиска близких по содержанию статей. То есть если вас заинтересовала какая-то статья, вы можете оперативно посмотреть историю сюжета: когда тема возникла, что писалось и когда был пик интереса к этой проблеме. Например, с помощью этого плагина можно будет, оттолкнувшись от статьи, посвященной событиям в Сирии, очень быстро увидеть, как в течение последнего года развивались там события.

— Как будет построен процесс обучения в магистратуре?

— Обучение в Вышке организовано по отдельным модулям — как в западных университетах. Студенты будут разделены на маленькие команды, мини-стартапы — то есть на выходе мы должны получить несколько готовых проектов. Мы хотим получить реальные продукты, которые потом откроем людям и оставим в открытом доступе.

Кроме непосредственных руководителей проектов студентов, мы хотим найти им кураторов из числа их потенциальных работодателей — из того же «Яндекса», например, которые тоже будут играть в эту игру и давать студентам какие-то советы.

Я надеюсь, что в магистратуру придут люди из самых разных областей: программисты, лингвисты, социологи, маркетологи. У нас будет несколько адаптационных курсов по лингвистике, математике и программированию. Потом у нас будет два серьезных курса по лингвистике, и они будут связаны с самыми актуальными лингвистическими теориями, мы хотим, чтобы наши выпускники были в состоянии читать и понимать современные лингвистические статьи. То же самое и с математикой. У нас будет курс, который будет называться «Математические основания компьютерной лингвистики», где будут излагаться те разделы математики, на которых зиждется современная компьютерная лингвистика.

Для того чтобы поступить в магистратуру, нужно сдать вступительный экзамен по языку и пройти конкурс портфолио.

Кроме основных курсов будут линейки предметов по выбору Мы запланировали несколько циклов — два из них ориентированы на более глубокое изучение отдельных тем, к которым относятся, например, машинный перевод и корпусная лингвистика, и, а один, наоборот, связан со смежными областями: такими как, социальные сети, машинное обучение или Digital Humanities — курс, который как мы надеемся, будем прочитан на английском языке.

Читайте также: