Чему учить студентов, или анализ использования СПО в исследованиях (Никита Шалаев, OSEDUCONF-2025)
Материал из 0x1.tv
- Докладчик
- Никита Шалаев
Внедрение СПО в обучение студентов в области социальных наук часто наталкивается на непонимание смысла такой миграции — многие люди привыкли пользоваться проприетарными программами и считают их неоспоримым эталоном профессионального инструментария, и аргументы об идеологических и лицензионных преимуществах СПО не выглядят убедительными.
Однако есть и объективные аргументы в пользу СПО, прежде всего — его распространение среди практикующих эмпирических исследователей.
Содержание
Видео
Презентация
Thesis
Среди участвующих в обучении студентов по специальностям, связанным с социальными науками, бытует расхожее мнение о существовании некоторого «индустриального стандарта» для программного обеспечения, использующегося в эмпирических исследованиях, и, следовательно, которому и нужно обучать студентов. При этом это ПО является коммерческим и проприетарным, но это не мешает рекомендовать его использование, в т.ч. с применением различных не вполне корректных схем, включая нарушение авторских прав. Ярким примером таких инструментов являются программы SPSS, SAS и STATA. Эти инструменты, в особенности SPSS, получили широкое распространение ещё в 90х годах, и использование даже их нелицензионных копий успело укорениться в сознании в качестве нормы.
Предложения о переходе к использованию СПО частенько встречаются со скепсисом. Перспективы оказаться без доступа к привычному проприетарному ПО не выглядят убедительно, а необходимость переучиваться никого не привлекает. Однако есть ли доводы в пользу обучения студентов инструментарию, относящемуся к СПО, не основывающиеся на соображениях лицензионного характера? Рейтинги популярности языков программирования или анализ предложений на рынке труда едва ли могут раскрыть инструментарий исследователя – эмпирика. Например, с точки зрения рейтинга TIOBE лидирует Python, а язык статистического программирования R находится на 18 месте, в рейтинге IEEE Spectrum (2024) и по популярности на StackOverflow (2023) R уже на 20 месте — и только в PYPL на 6. Ситуация выглядит так, что изучение R является делом довольно бессмысленным. Что же касается прикладных программ, то для них аналогичных рейтингов не сыскать вовсе.
Упоминания различного ПО в репозиториях:
ПО | Всего | FS | ZN | DR | MD | HD |
---|---|---|---|---|---|---|
Excel | 23673 | 7276 | 4875 | 3534 | 1630 | 620 |
R | 22264 | 8295 | 4005 | 4964 | 705 | 933 |
Python | 10660 | 2164 | 4852 | 726 | 428 | 93 |
Matlab | 7204 | 1883 | 1893 | 548 | 507 | 173 |
Stata | 1730 | 69 | 62 | 12 | 69 | 1168 |
SPSS | 1710 | 283 | 64 | 34 | 137 | 688 |
Java | 1118 | 199 | 632 | 32 | 115 | 4 |
Perl | 1027 | 401 | 138 | 254 | 26 | 7 |
Fortran | 819 | 55 | 170 | 26 | 179 | 23 |
SAS | 441 | 72 | 38 | 22 | 30 | 113 |
gnuplot | 122 | 34 | 45 | 3 | 15 | 0 |
К счастью, эмпирические исследования в наше время оставляют после себя не только тексты публикаций, но и сопроводительные материалы, в том числе — данные для репликации. Разумеется, далеко не все исследования снабжаются данными для репликации в обязательном порядке, но такое действие к нашему времени стало настолько популярным, что существует целый набор репозиториев таких материалов. Кроме того, логично предположить, что хотя выборка получается смещённой, смещается она как раз в пользу наиболее технически продвинутых и уверенных в себе авторов, которые смело готовы открыть свои наработки для проверки всем желающим.
Анализ данных для репликации, размещённых в ведущих репозиториях, показывает, что именно
СПО (например, язык R) в реальной практике во многих сферах уверенно занимает лидирующие
позиции, в частности, превосходя по популярности указанные проприетарные инструменты. Для
исследования популярности ПО была собрана статистика по результатам поиска в
соответствующих репозиториях по ключевым словам, покрывающим обычный спектр типовых
выражений, использующихся при описании наборов данных.
В таблице 1 приведена избранная статистика по 5 репозиториям (FS = Figshare ARS, ZN = Zenodo, DR = DRYAD, MD = Mendeley Data, HD = Harvard Dataverse), в которых общее число результатов оказалось наибольшим, а также общее число результатов по всем репозиториям, данные с которых были агрегированы сервисом Mendeley. В качестве «эталонного варианта» выступает Excel — синоним как самого простого варианта для предоставления данных, и одновременно программного обеспечения, которое доступно практически повсеместно и выполняет большое число базовых аналитических операций.
Мы видим, что в отличие от показателей рейтингов популярности языков программирования, в целом R оказался вдвое популярнее Python, хотя из рассмотренных инструментов лидером, конечно, оказался Excel, олицетворяющий электронные таблицы в целом. А вот специализированные статистические программы (SPSS, SAS, STATA), якобы являющиеся «профессиональным стандартом», существенно уступают в популярности и R, и Python за исключением разве что Harvard Dataverse, где STATA является лидирующим инструментом. По – прежнему используются и такие специализированные языки, как Perl и Fortran. Примерно на уровне gnuplot и SAS находятся такие представители СПО, как JASP (статистика), pajek и gephi (сетевой анализ). Значительно выше популярность GNU Octave, а вот популярность системы символьной алгебры maxima, наоборот, минимальна.
В результате мы видим, что популярность «солидных» проприетарных программ для статистического анализа сильно переоценена, и на практике на первый план выходят представители СПО — как язык программирования общего назначения Python, так и специализированный язык статистического программирования R. Пользуются сравнимой популярностью и другие свободные программные продукты; и даже такой узко – специализированный инструмент, как gnuplot, находит своих благодарных пользователей. Это, в свою очередь, даёт в наши руки весьма весомый объективный аргумент в пользу отказа от проприетарного ПО в образовательном процессе. В наши дни именно СПО является «стандартным инструментарием» для исследователей. И именно работе с ним следует учить студентов, чтобы они приобщались к передовым тенденциям мировой науки.