Чему учить студентов, или анализ использования СПО в исследованиях (Никита Шалаев, OSEDUCONF-2025)

Материал из 0x1.tv

Докладчик
Никита Шалаев.jpg
Никита Шалаев

Внедрение СПО в обучение студентов в области социальных наук часто наталкивается на непонимание смысла такой миграции — многие люди привыкли пользоваться проприетарными программами и считают их неоспоримым эталоном профессионального инструментария, и аргументы об идеологических и лицензионных преимуществах СПО не выглядят убедительными.

Однако есть и объективные аргументы в пользу СПО, прежде всего — его распространение среди практикующих эмпирических исследователей.

Видео

Презентация

Чему учить студентов, или анализ использования СПО в исследованиях (Никита Шалаев, OSEDUCONF-2025).pdf Чему учить студентов, или анализ использования СПО в исследованиях (Никита Шалаев, OSEDUCONF-2025).pdf Чему учить студентов, или анализ использования СПО в исследованиях (Никита Шалаев, OSEDUCONF-2025).pdf Чему учить студентов, или анализ использования СПО в исследованиях (Никита Шалаев, OSEDUCONF-2025).pdf Чему учить студентов, или анализ использования СПО в исследованиях (Никита Шалаев, OSEDUCONF-2025).pdf Чему учить студентов, или анализ использования СПО в исследованиях (Никита Шалаев, OSEDUCONF-2025).pdf Чему учить студентов, или анализ использования СПО в исследованиях (Никита Шалаев, OSEDUCONF-2025).pdf Чему учить студентов, или анализ использования СПО в исследованиях (Никита Шалаев, OSEDUCONF-2025).pdf Чему учить студентов, или анализ использования СПО в исследованиях (Никита Шалаев, OSEDUCONF-2025).pdf Чему учить студентов, или анализ использования СПО в исследованиях (Никита Шалаев, OSEDUCONF-2025).pdf Чему учить студентов, или анализ использования СПО в исследованиях (Никита Шалаев, OSEDUCONF-2025).pdf Чему учить студентов, или анализ использования СПО в исследованиях (Никита Шалаев, OSEDUCONF-2025).pdf

Thesis

Среди участвующих в обучении студентов по специальностям, связанным с социальными науками, бытует расхожее мнение о существовании некоторого «индустриального стандарта» для программного обеспечения, использующегося в эмпирических исследованиях, и, следовательно, которому и нужно обучать студентов. При этом это ПО является коммерческим и проприетарным, но это не мешает рекомендовать его использование, в т.ч. с применением различных не вполне корректных схем, включая нарушение авторских прав. Ярким примером таких инструментов являются программы SPSS, SAS и STATA. Эти инструменты, в особенности SPSS, получили широкое распространение ещё в 90х годах, и использование даже их нелицензионных копий успело укорениться в сознании в качестве нормы.

Предложения о переходе к использованию СПО частенько встречаются со скепсисом. Перспективы оказаться без доступа к привычному проприетарному ПО не выглядят убедительно, а необходимость переучиваться никого не привлекает. Однако есть ли доводы в пользу обучения студентов инструментарию, относящемуся к СПО, не основывающиеся на соображениях лицензионного характера? Рейтинги популярности языков программирования или анализ предложений на рынке труда едва ли могут раскрыть инструментарий исследователя – эмпирика. Например, с точки зрения рейтинга TIOBE лидирует Python, а язык статистического программирования R находится на 18 месте, в рейтинге IEEE Spectrum (2024) и по популярности на StackOverflow (2023) R уже на 20 месте — и только в PYPL на 6. Ситуация выглядит так, что изучение R является делом довольно бессмысленным. Что же касается прикладных программ, то для них аналогичных рейтингов не сыскать вовсе.

Упоминания различного ПО в репозиториях:

ПО Всего FS ZN DR MD HD
Excel 23673 7276 4875 3534 1630 620
R 22264 8295 4005 4964 705 933
Python 10660 2164 4852 726 428 93
Matlab 7204 1883 1893 548 507 173
Stata 1730 69 62 12 69 1168
SPSS 1710 283 64 34 137 688
Java 1118 199 632 32 115 4
Perl 1027 401 138 254 26 7
Fortran 819 55 170 26 179 23
SAS 441 72 38 22 30 113
gnuplot 122 34 45 3 15 0

К счастью, эмпирические исследования в наше время оставляют после себя не только тексты публикаций, но и сопроводительные материалы, в том числе — данные для репликации. Разумеется, далеко не все исследования снабжаются данными для репликации в обязательном порядке, но такое действие к нашему времени стало настолько популярным, что существует целый набор репозиториев таких материалов. Кроме того, логично предположить, что хотя выборка получается смещённой, смещается она как раз в пользу наиболее технически продвинутых и уверенных в себе авторов, которые смело готовы открыть свои наработки для проверки всем желающим.


Анализ данных для репликации, размещённых в ведущих репозиториях, показывает, что именно СПО (например, язык R) в реальной практике во многих сферах уверенно занимает лидирующие позиции, в частности, превосходя по популярности указанные проприетарные инструменты. Для исследования популярности ПО была собрана статистика по результатам поиска в соответствующих репозиториях по ключевым словам, покрывающим обычный спектр типовых выражений, использующихся при описании наборов данных.

В таблице 1 приведена избранная статистика по 5 репозиториям (FS = Figshare ARS, ZN = Zenodo, DR = DRYAD, MD = Mendeley Data, HD = Harvard Dataverse), в которых общее число результатов оказалось наибольшим, а также общее число результатов по всем репозиториям, данные с которых были агрегированы сервисом Mendeley. В качестве «эталонного варианта» выступает Excel — синоним как самого простого варианта для предоставления данных, и одновременно программного обеспечения, которое доступно практически повсеместно и выполняет большое число базовых аналитических операций.

Мы видим, что в отличие от показателей рейтингов популярности языков программирования, в целом R оказался вдвое популярнее Python, хотя из рассмотренных инструментов лидером, конечно, оказался Excel, олицетворяющий электронные таблицы в целом. А вот специализированные статистические программы (SPSS, SAS, STATA), якобы являющиеся «профессиональным стандартом», существенно уступают в популярности и R, и Python за исключением разве что Harvard Dataverse, где STATA является лидирующим инструментом. По – прежнему используются и такие специализированные языки, как Perl и Fortran. Примерно на уровне gnuplot и SAS находятся такие представители СПО, как JASP (статистика), pajek и gephi (сетевой анализ). Значительно выше популярность GNU Octave, а вот популярность системы символьной алгебры maxima, наоборот, минимальна.

В результате мы видим, что популярность «солидных» проприетарных программ для статистического анализа сильно переоценена, и на практике на первый план выходят представители СПО — как язык программирования общего назначения Python, так и специализированный язык статистического программирования R. Пользуются сравнимой популярностью и другие свободные программные продукты; и даже такой узко – специализированный инструмент, как gnuplot, находит своих благодарных пользователей. Это, в свою очередь, даёт в наши руки весьма весомый объективный аргумент в пользу отказа от проприетарного ПО в образовательном процессе. В наши дни именно СПО является «стандартным инструментарием» для исследователей. И именно работе с ним следует учить студентов, чтобы они приобщались к передовым тенденциям мировой науки.


Примечания и ссылки