Курс «Компьютерная лингвистика» (Александр Рыжов, OSEDUCONF-2016) — различия между версиями
Материал из 0x1.tv
StasFomin (обсуждение | вклад) |
StasFomin (обсуждение | вклад) |
||
(не показаны 34 промежуточные версии этого же участника) | |||
== Видео ==
{{vimeoembed|156812632|800|450}}
{{youtubelink|v5_t92-HH98}}{{letscomment}}
{{oseduconf-2016-draft}}
== Слайды == == Примечания и отзывы == <!-- <blockquote>[©]</blockquote> --> {{fblink|1693721037547577}} {{vklink|152}} <references/> [[Category:OSEDUCONF-2016]] [[Category:Natural Language Processing]] [[Category:IT-образование]] [[Category:СПО в образовании]] <!-- topub --> {{stats|disqus_comments=0|refresh_time=2017-06-11T23:15:042021-08-31T17:25:00.291701352633|vimeo_comments=0|vimeo_plays=15}}38|youtube_comments=0|youtube_plays=74}} |
Текущая версия на 14:25, 31 августа 2021
Содержание
Аннотация
- Докладчик
- Александр Рыжов
В настоящее время во множестве отечественных университетов преподаются такие курсы, как «Компьютерная лингвистика» и «Основы обработки текстов».
Но методика преподавания данных дисциплин полностью зависит от конкретного учебного заведения и не всегда соответствует современным реалиям. В докладе проведен анализ основных учебных программ ведущих университетов по данной дисциплине и разработана типовая структура курса на основе открытой библиотеки NLTK.
Разработаны задачи к лабораторному практикуму и описаны возможные направления для научной деятельности студентов.
Видео
Посмотрели доклад? Понравился? Напишите комментарий! Не согласны? Тем более напишите.
Слайды
Тезисы
Задача cоздания эффективного спецкурса обучения студентов компьютерной лингвистики и текстовому анализу крайне актуальна на данный момент, ввиду потребности в специалистах, владеющих этими предметами, и достаточно большого обилия средств и методик.
Анализ учебных курсов, читаемых в таких вузах как МГУ, ВШЭ, МФТИ, НГУ и некоторых других показал, что программы разительно отличаются друг от друга, как по теоретическому материалу, так и по предлагаемым студентам практическим и лабораторным задачам.
Все рассмотренные программы относились к направлениям подготовки «Прикладная математика и физика» и «Фундаментальная и прикладная лингвистика».
В докладе представлена типовая структура спецкурса для подготовки студентов на основе лингвистической библиотеки NLTK, который поддерживается созданным интернет-ресурсом[1].
Данная библиотека успешно используется во многих университетах мира в курсах[2], связанных с текстовым анализом и со смежными областями.
NLTK — открытая библиотека реализована на языке Python и была создана специально для курса компьютерной лингвистики Университета Пенсильвании[3] [4].
Цель создания собственного интернет-ресурса в том, чтобы преподаватели различных вузов могли использовать представленные наработки для составления своих учебных программ, соответствующих современным реалиям подготовки студентов.
Представлен набор задач и лабораторных работ на основе курса. Общий формат лабораторных не подразумевает создания большого количества задач. Для практикума планируется 1–2 задачи, которые будут покрывать широкое поле основных понятий и терминов. К подобным заданиям можно отнести задачу автоматического определения тональности. В ходе ее решения студент познакомится и на практике столкнется с такими важными понятиями, как алгоритмы классификации, алгоритмы стемминга, текстовые корпуса, N-граммы. Студенту предложено на основе имеющегося или составленого им корпуса определенной предметной области, запрограммировать собственный классификатор и получить точность не ниже определенного порога. Для оценивания результата возможно использовать автоматическую систему проверки. Стоит заметить, что библиотека NLTK представляет только базовые средства текстового анализа и предполагается, что разработчик на основе данных инструментов, будет создавать свои более высокоуровневые программы. Базовые средства не всегда достаточны для решения разнообразных задач.
Незатронутыми остаются такие задачи, как автореферирование и выделение именованных сущностей в тексте. В настоящий момент в данной библиотеке крайне мала поддержка русского языка. С одной стороны, это плохо, но с другой стороны, множество разработчиков постоянно совершенствуют библиотеку. Студентам предоставляется возможность самим поучаствовать над её развитием и предложить свои модули, разработанные в рамках лабораторных работ или в качестве научной работы.
Примечания и отзывы
- ↑ Курс «Компьютерная лингвистика» URL: http://ucheba8fac.wix.com/linguistics
- ↑ Courses that use NLTK: http://tinyurl.com/nltk-courses
- ↑ Bird S., Klein E., Loper E. Natural language processing with Python. — “O’Reilly Media, Inc.”, 2009.
- ↑ Исходный код NLTK: https://github.com/nltk/nltk
Plays:112 Comments:0