Проект открытого кода научных исследований ФКН (Михаил Гущин, OSEDUCONF-2024) — различия между версиями
Материал из 0x1.tv
StasFomin (обсуждение | вклад) |
StasFomin (обсуждение | вклад) |
||
(не показано 5 промежуточных версий этого же участника) | |||
;{{SpeakerInfo}}: {{Speaker|Михаил Гущин}} <blockquote> На факультете компьютерных наук НИУ ВШЭ стартовал проект по открытому коду, где сотрудники и студенты могут разместить код своих проектов. Расскажем, почему возникла необходимость в таком проекте, и какие цели стоят перед ним. Обсуждаем какую пользу, которую проект несёт для факультета и партнёров. Также рассматриваем несколько примеров открытых библиотек, разработанных сотрудниками факультета. </blockquote> {{VideoSection}} {{vimeoembed|993361563|800|450}} {{youtubelink|}} |kI1UVsXf17E}} {{SlidesSection}} [[File:Проект открытого кода научных исследований ФКН (Михаил Гущин, OSEDUCONF-2024).pdf|left|page=-|300px]] {{----}} == Thesis == * https://github.com/hse-cs Согласно отчёту о состоянии искусственного интеллекта (ИИ) от Университета Стэнфорда <ref name="gushin-1"><i>Maslej N., Fattorini L., Brynjolfsson E., Etchemendy J., Ligett K., Lyons T., et al.</i> (2023). Artificial intelligence index report 2023. [https://doi.org/10.48550/arXiv.2310.03715]</ref> в 2021 году были опубликованы более 290 000 статей в научных журналах в области ИИ. При этом только около 30% публикаций имеют хотя бы одну открытую реализацию в коде, согласно статистике сайта статей с открытым кодом<ref>[paperswithcode.com/trends</ref>]. Открытый код научных исследований необходим для повышения качества и прозрачности научных работ, а также для стимулирования инноваций и сотрудничества между учёными. Он позволяет исследователям и другим специалистам изучать и анализировать научные работы, выявлять ошибки и недостатки в них, что способствует повышению доверия к результатам исследований. Также открытый код облегчает сотрудничество между учёными, позволяя им совместно работать над решением научных проблем и обмениваться знаниями. Он даёт возможность повторно использовать существующие работы, экономя время и ресурсы. Использование программного обеспечения с открытым исходным кодом снижает затраты на исследования, так как не нужно покупать дорогостоящие проприетарные программы. В целом, открытый код научных исследований способствует развитию науки, повышению качества исследований и укреплению международного научного сообщества. В 2021 году уже существовало более 330 000 проектов с открытым кодом в области ИИ<ref name="gushin-12">Избранные публикации сотрудников факультета. [https://cs.hse.ru/selected-publications]</ref>. К 2022 году эти проекты собрали на <tt>Github</tt> в сумме более 8 000 000 звёзд. Самыми популярными из них являются библиотеки широкого назначения такие как <tt>Tensorflow</tt>, <tt>OpenCV</tt>, <tt>Keras</tt>, <tt>PyTorch</tt>, <tt>Scikit-learn</tt> и другие. %\begin{scriptsize} \begin{tiny} \tabcolsep=0.2em %\begin{longtable}[ht]{|p{0.045\textwidth}|p{0.31\textwidth}|p{0.25\textwidth}|p{0.11\textwidth}|p{0.11\textwidth}|p{0.11\textwidth}|} \begin{longtable}[ht]{p{0.045\textwidth}p{0.31\textwidth}p{0.25\textwidth}p{0.11\textwidth}p{0.11\textwidth}p{0.11\textwidth}} \caption{{\small Количество цитирований в Google Scholar, число форков и[[File:osseduconf-2024-gushin-gushin-gushin-02.png|center|640px|thumb|Зависимости числа звёзд на Github для некоторых докладов на конференциях NeurIPS 2021—2023}} \label{tab:gushin-1}\\\toprule%\hline \Emph{Год} & \Emph{Статья} & \Emph{Код} & \Emph{цитирований Google Scholar} & \Emph{форков на GitHub} & \Emph{звезд на GitHub} \\\hline \endfirsthead \multicolumn{6}{c} {\tablename\ \thetable\ -- <i>Продолжение</i>} \\\toprule%\hline \Emph{Год} & \Emph{Статья} & \Emph{Код} & \Emph{цитирований Google Scholar} & \Emph{форков на GitHub} & \Emph{звезд на GitHub} \\\hline \endhead %\rowcolor{LightGray} \multirow{3}{*}[-3em]{\rotatebox[origin=c]{90}{2023}}%\cellcolor{white} % \multirow{3}{*}\STAB{\rotatebox[origin=c]{90}{2023}}%\cellcolor{white} & LLM-Pruner: On the Structural Pruning of Large Language Models & [https://github.com/horseee/LLM-Pruner] & \multicolumn{1}{c}{148} & \multicolumn{1}{c}{74} & \multicolumn{1}{c}{698}\\\cmidrule{2-6} %\rowcolor{LightGray} & An Inverse Scaling Law for CLIP Training & [https://github.com/UCSC-VLAA/CLIPA] & \multicolumn{1}{c}{19} & \multicolumn{1}{c}{10} & \multicolumn{1}{c}{280} \\\cmidrule{2-6}%\cline{2-6} %\rowcolor{LightGray} & RayDF: Neural Ray-surface Distance Fields with Multi-view Consistency & [https://github.com/vLAR-group/RayDF] & \multicolumn{1}{c}{2} & \multicolumn{1}{c}{4} & \multicolumn{1}{c}{102} \\\midrule%\hline \multirow{3}{*}[-4em]{\rotatebox[origin=c]{90}{2022}} & VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training & [https://github.com/MCG-NJU/VideoMAE] & \multicolumn{1}{c}{648} & \multicolumn{1}{c}{123} & \multicolumn{1}{c}{1241} \\\cmidrule{2-6}%\cline{2-6} & Gradient Descent: The Ultimate Optimizer & [https://github.com/kach] [/gradient-descent-the-] [ultimate-optimizer] & \multicolumn{1}{c}{34} & \multicolumn{1}{c}{25} & \multicolumn{1}{c}{358} \\\cmidrule{2-6}%\cline{2-6} & GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech & [https://github.com/Rongjiehuang/GenerSpeech] & \multicolumn{1}{c}{62} & \multicolumn{1}{c}{44} & \multicolumn{1}{c}{307} \\\midrule%\hline %\rowcolor{LightGray} \multirow{3}{*}[-4em]{\rotatebox[origin=c]{90}{2021}} & Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation & [https://github.com/hkchengrex/STCN] & \multicolumn{1}{c}{272} & \multicolumn{1}{c}{71} & \multicolumn{1}{c}{525} \\\cmidrule{2-6}%\cline{2-6} %\rowcolor{LightGray} & Prototypical Cross-Attention Networks for Multiple Object Tracking and Segmentation & [https://github.com/SysCV/pcan] & \multicolumn{1}{c}{82} & \multicolumn{1}{c}{50} & \multicolumn{1}{c}{360} \\\cmidrule{2-6}%\cline{2-6} %\rowcolor{LightGray} & Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited Data & [https://github.com/EndlessSora/DeceiveD] & \multicolumn{1}{c}{99} & \multicolumn{1}{c}{24} & \multicolumn{1}{c}{251} \\\bottomrule%\hline \end{longtable} %\end{scriptsize} \end{tiny} \begin{figure}[h] \centering от времени для докладов]]\protect\footnotemark}%\ (Табл. 1).} \label{gushin-img01} %\footnotetext{Данные получены с помощью сервиса <tt>https://star-history.com</tt>} \end{figure} %\footnotetext{Данные получены с помощью сервиса [https://star-history.com]} Открытый код способствует повышению популярности результатов научных исследований. В Таблице \ref{tab:gushin-1}таблице приведены данные о количестве цитирований на <tt>Google Scholar</tt>, а также число звёзд у репозиториев на <tt>Github</tt> для некоторых статей конференции <tt>NeurIPS</tt> в 2021—2023 годах. Цитирования [[File:osseduconf-2024-gushin-gushin-gushin-01.png|center|640px|thumb|]] \caption{Зависимости числа звёзд на Github от времени для докладов]] итирования отражают интерес к результатам исследований со стороны научного сообщества. Тогда как число звёзд выражает интерес и со стороны исследователей, и со стороны разработчиков и инженеров в области ИИ. Результаты<ref>Данные получены с помощью сервиса [https://star-history.com]</ref> показывают, что число звёзд обычно существенно превышает количество цитирований соответствующих статей. \footnotetext{Данные получены с помощью сервиса [https://star-history.com]} Наличие открытого кода способствует росту числа цитирований, поскольку облегчает другим исследователям воспроизведение и использование результатов в своих работах. На Рис. \ref{gushin-img01} показана зависимость звёзд в репозиториях . График показывает, что публикация кода вместе со статьёй дополнительно повышает видимость результатов и приводит к росту популярности. Факультет компьютерных наук (ФКН) НИУ ВШЭ каждый год выпускает десятки научных статей в высокорейтинговых журналах и выступает на конференциях с рейтингом Core A<m>^*</m><ref name="gushin-2"></ref>. С целью увеличить видимость результатов исследований среди сотрудников факультета, студентов, а также партнёров и внешних разработчиков был запущен проект открытого кода ФКН. |
Текущая версия на 07:20, 6 августа 2024
- Докладчик
- Михаил Гущин
На факультете компьютерных наук НИУ ВШЭ стартовал проект по открытому коду, где сотрудники и студенты могут разместить код своих проектов.
Расскажем, почему возникла необходимость в таком проекте, и какие цели стоят перед ним. Обсуждаем какую пользу, которую проект несёт для факультета и партнёров.
Также рассматриваем несколько примеров открытых библиотек, разработанных сотрудниками факультета.
Содержание
Видео
Презентация
Thesis
Согласно отчёту о состоянии искусственного интеллекта (ИИ) от Университета Стэнфорда [1] в 2021 году были опубликованы более 290 000 статей в научных журналах в области ИИ. При этом только около 30% публикаций имеют хотя бы одну открытую реализацию в коде, согласно статистике сайта статей с открытым кодом[2]].
Открытый код научных исследований необходим для повышения качества и прозрачности научных работ, а также для стимулирования инноваций и сотрудничества между учёными. Он позволяет исследователям и другим специалистам изучать и анализировать научные работы, выявлять ошибки и недостатки в них, что способствует повышению доверия к результатам исследований. Также открытый код облегчает сотрудничество между учёными, позволяя им совместно работать над решением научных проблем и обмениваться знаниями. Он даёт возможность повторно использовать существующие работы, экономя время и ресурсы. Использование программного обеспечения с открытым исходным кодом снижает затраты на исследования, так как не нужно покупать дорогостоящие проприетарные программы. В целом, открытый код научных исследований способствует развитию науки, повышению качества исследований и укреплению международного научного сообщества.
В 2021 году уже существовало более 330 000 проектов с открытым кодом в области ИИ[3].
К 2022 году эти проекты собрали на Github в сумме более 8 000 000 звёзд. Самыми популярными из них
являются библиотеки широкого назначения такие как Tensorflow, OpenCV, Keras,
PyTorch, Scikit-learn и другие.
Открытый код способствует повышению популярности результатов научных исследований. В таблице приведены данные о количестве цитирований на Google Scholar, а также число звёзд у репозиториев на Github для некоторых статей конференции NeurIPS в 2021—2023 годах.
итирования отражают интерес к результатам исследований со стороны
научного сообщества. Тогда как число звёзд выражает интерес и со стороны исследователей, и со стороны разработчиков и
инженеров в области ИИ. Результаты[4] показывают, что число звёзд обычно существенно превышает количество цитирований
соответствующих статей.
Наличие открытого кода способствует росту числа цитирований, поскольку облегчает другим исследователям воспроизведение и использование результатов в своих работах. График показывает, что публикация кода вместе со статьёй дополнительно повышает видимость результатов и приводит к росту популярности.
Факультет компьютерных наук (ФКН) НИУ ВШЭ каждый год выпускает десятки научных статей в высокорейтинговых журналах и выступает на конференциях с рейтингом Core A[3]. С целью увеличить видимость результатов исследований среди сотрудников факультета, студентов, а также партнёров и внешних разработчиков был запущен проект открытого кода ФКН. Создана страница на Github[5], где сотрудники и студенты факультета могут разместить код своих проектов и получить обратную связь от коллег и сообщества.
Одинм из примеров открытого кода ФКН является библиотека LaNeta[6] для оценки времени примешивания между двумя популяциями при двух пульсах миграции. В библиотеке реализован алгоритм, который построен на математической теории неравновесного сцепления трёх генетических локусов при примешивании популяций[7].
Он позволяет точно исследовать недавнюю (в пределах нескольких десятков поколений) историю примешивания популяций в сложных сценариях, для которых существовавшие ранее методы были неприменимы или неточны. Библиотека будет интересна всем, кто занимается популяционной геномикой.
Студентами и сотрудниками факультета была разработана библиотека Fulu[8].
В ней собраны несколько методов для аппроксимации кривых блеска астрономических объектов с использованием машинного обучения. В библиотеке реализованы алгоритмы на основе гауссовских процессов, а также некоторые другие, с использованием нормализующих потоков и байесовских нейронных сетей[9].
Библиотека будет полезна астрономам и прикладным исследователям на стыке машинного обучения и астрофизики, который изучают сверхновые.
Также у нас есть библиотеки общего назначения. Например, библиотека генеративных моделей Probaforms[10]. Она содержит реализации вариационных автокодировщиков, генеративно-состязательных сетей и нормализующих потоков для табличных данных. С их помощью можно решать задачи регрессии и классификации, оценивать неопределённость прогнозов, учить распределения данных, создавать синтетические данные.
Мы призываем студентов и сотрудников факультета участвовать в разработке открытого кода. Проект позволит улучшить прозрачность исследований, будет способствовать сотрудничеству между учёными и студентами, упростит повторное использование наработок и увеличит видимость результатов исследования за пределами университета.
Примечания и ссылки
- ↑ Maslej N., Fattorini L., Brynjolfsson E., Etchemendy J., Ligett K., Lyons T., et al. (2023). Artificial intelligence index report 2023. [1]
- ↑ [paperswithcode.com/trends
- ↑ 3,0 3,1 Избранные публикации сотрудников факультета. [2]
- ↑ Данные получены с помощью сервиса [3]
- ↑ Репозитории с открытым кодом ФКН. [4]
- ↑ LaNeta. [5]
- ↑ Liang M., Shishkin M., Mikhailova A., Shchur V., \& Nielsen R. (2022). Estimating the timing of multiple admixture events using 3-locus linkage disequilibrium. PLoS genetics, 18(7), e1010281. [6]
- ↑ Fulu. [7]
- ↑ Demianenko M., Malanchev K., Samorodova E., Sysak M., Shiriaev A., Derkach D., \& Hushchyn M. (2023) Understanding of the properties of neural network approaches for transient light curve approximations. Astronomy \& Astrophysics, 677, A16. [8]
- ↑ Probaforms. [9]