Курс «Компьютерная лингвистика» (Александр Рыжов, OSEDUCONF-2016)

Короткая ссылка: 20160130C

Содержание

1 Аннотация
2 Видео
3 Слайды
4 Тезисы
5 Примечания и отзывы

Аннотация

Докладчик: Александр Рыжов

В настоящее время во множестве отечественных университетов преподаются такие курсы, как «Компьютерная лингвистика» и «Основы обработки текстов».
Но методика преподавания данных дисциплин полностью зависит от конкретного учебного заведения и не всегда соответствует современным реалиям. В докладе проведен анализ основных учебных программ ведущих университетов по данной дисциплине и разработана типовая структура курса на основе открытой библиотеки NLTK.
Разработаны задачи к лабораторному практикуму и описаны возможные направления для научной деятельности студентов.

Видео

on youtube

Посмотрели доклад? Понравился? Напишите комментарий! Не согласны? Тем более напишите.

Слайды

Тезисы

Задача cоздания эффективного спецкурса обучения студентов компьютерной лингвистики и текстовому анализу крайне актуальна на данный момент, ввиду потребности в специалистах, владеющих этими предметами, и достаточно большого обилия средств и методик.

Анализ учебных курсов, читаемых в таких вузах как МГУ, ВШЭ, МФТИ, НГУ и некоторых других показал, что программы разительно отличаются друг от друга, как по теоретическому материалу, так и по предлагаемым студентам практическим и лабораторным задачам.

Все рассмотренные программы относились к направлениям подготовки «Прикладная математика и физика» и «Фундаментальная и прикладная лингвистика».

В докладе представлена типовая структура спецкурса для подготовки студентов на основе лингвистической библиотеки NLTK, который поддерживается созданным интернет-ресурсом^[1].

Данная библиотека успешно используется во многих университетах мира в курсах^[2], связанных с текстовым анализом и со смежными областями.

NLTK — открытая библиотека реализована на языке Python и была создана специально для курса компьютерной лингвистики Университета Пенсильвании^[3] ^[4].

Цель создания собственного интернет-ресурса в том, чтобы преподаватели различных вузов могли использовать представленные наработки для составления своих учебных программ, соответствующих современным реалиям подготовки студентов.

Представлен набор задач и лабораторных работ на основе курса. Общий формат лабораторных не подразумевает создания большого количества задач. Для практикума планируется 1–2 задачи, которые будут покрывать широкое поле основных понятий и терминов. К подобным заданиям можно отнести задачу автоматического определения тональности. В ходе ее решения студент познакомится и на практике столкнется с такими важными понятиями, как алгоритмы классификации, алгоритмы стемминга, текстовые корпуса, N-граммы. Студенту предложено на основе имеющегося или составленого им корпуса определенной предметной области, запрограммировать собственный классификатор и получить точность не ниже определенного порога. Для оценивания результата возможно использовать автоматическую систему проверки. Стоит заметить, что библиотека NLTK представляет только базовые средства текстового анализа и предполагается, что разработчик на основе данных инструментов, будет создавать свои более высокоуровневые программы. Базовые средства не всегда достаточны для решения разнообразных задач.

Незатронутыми остаются такие задачи, как автореферирование и выделение именованных сущностей в тексте. В настоящий момент в данной библиотеке крайне мала поддержка русского языка. С одной стороны, это плохо, но с другой стороны, множество разработчиков постоянно совершенствуют библиотеку. Студентам предоставляется возможность самим поучаствовать над её развитием и предложить свои модули, разработанные в рамках лабораторных работ или в качестве научной работы.

Примечания и отзывы

↑ Курс «Компьютерная лингвистика» URL: http://ucheba8fac.wix.com/linguistics
↑ Courses that use NLTK: http://tinyurl.com/nltk-courses
↑ Bird S., Klein E., Loper E. Natural language processing with Python. — “O’Reilly Media, Inc.”, 2009.
↑ Исходный код NLTK: https://github.com/nltk/nltk

Plays:76 Comments:0

[1] Курс «Компьютерная лингвистика» URL: http://ucheba8fac.wix.com/linguistics

[2] Courses that use NLTK: http://tinyurl.com/nltk-courses

[3] Bird S., Klein E., Loper E. Natural language processing with Python. — “O’Reilly Media, Inc.”, 2009.

[4] Исходный код NLTK: https://github.com/nltk/nltk

[1]

[2]

[3]

[4]