Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018) — различия между версиями
Материал из 0x1.tv
StasFomin (обсуждение | вклад) |
StasFomin (обсуждение | вклад) |
||
(не показано 28 промежуточных версий этого же участника) | |||
;{{SpeakerInfo}}: {{Speaker|Анастасия Маркина}} <blockquote> В работе представлен комплексный подход к оценке эффективности взаимодействия пользователя с программным обеспечением на платформе GNU/Linux, включающий комбинированное использование методов психологического анализа и биометрического подхода. Используемые методы включают в себя прохождение тестов, заполнение опросников, протоколирование действий пользователя и коммуникативное взаимодействие с ним, а также измерение биометрических показателей. Приводятся разработанные на принципах свободного контента материалы, а также результаты апробации подхода на задаче сравнения свободных и коммерческих табличных процессоров. </blockquote> {{VideoSection}} {{vimeoembed|254114813|800|450}} <!-- {{youtubelink|}} --> |WqOGhyAS3_o}}{{letscomment}} {{SlidesSection}} [[File:Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf|left|page=-|300px]] {{----}} == Thesis == <latex> \section{Введение} Для измерения эффективности работы пользователя выделяют два принципиально различных подхода. В первом подходе активно используются экспертные оценки и самосообщаемые параметры; он не поддаётся значительной автоматизации и затратен по времени из-за опросов, хронометража и видеопротоколирования, больше подвержен влиянию человеческого фактора при обработке результатов. Также ряд параметров, таких как физическая нагрузка, может быть оценен лишь по косвенным признакам и самосообщаемым параметрам. Альтернативный подход предполагает экспресс-оценку состояния пользователя с помощью приборов, позволяющих регистрировать параметры, связанные с физической и когнитивной нагрузкой. Он также имеет ряд ограничений. Биометрические измерения предоставляют большой объем данных, поддающихся автоматической обработке, однако они позволяют оценивать эмоциональное состояние и когнитивные процессы лишь по косвенным признакам, что даёт в ряде случаев лишь приблизительную картину. В настоящей работе предпринята попытка объединения достоинств обоих подходов в рамках комплексного usability-тестирования, нацеленного на получение картины процессов, имеющих место в ходе человеко-машинного взаимодействия, максимально полной и максимально абстрагированной от влияния человеческого фактора в процессе его оценки. По мнению авторов, подобная методика особенно актуальна для GNU/Linux, не относящейся к числу платформ, <<избалованных>> полномасштабными usability-исследованиями. Материалы для тестирования пользователей (в особенности универсальные) и программное обеспечение, разработанное и используемое авторами в ходе работы, распространяются под свободной лицензией и доступны в репозитории проекта UXDump (\url{https://bitbucket.org/AsyaAliset/uxdump}). \section{Метрики} Список метрик, которые имеет смысл учитывать при проведении исследования, включает показатели результативности (время выполнения задания, ошибки, процент выполненных заданий), нагрузку (пульс, концентрацию внимания, фиксации взгляда) и впечатления респондентов (уровень ожиданий и уровень удовлетворения пользователя). Время и успешность выполнения задания~--- одни из основных показателей, используются только в сравнении. Успешность выполнения кодируется в бинарном коде (выполнил/не выполнил). Проблемы, с которыми столкнулись пользователи, регистрируются как менеджером эксперимента, так и с помощью видео-захвата экрана. После тестирования проводится ретроспектива: с пользователем обсуждаются задания, вызвавшие проблемы, проигрывается запись, анализируется реакция и поведение в ходе теста. Это позволяет классифицировать проблемы, выявить более значимые для пользователя, рассчитать частотность проблем (сколько пользователей с ними столкнулись). Уровень ожидания отражает отношение пользователя к продукту и представляемую им комфортность работы, а уровень удовлетворения~--- оценку удобства использования системы после прохождения теста. Эти метрики можно получить с помощью стандартных международных опросников System Usability Scale (SUS) и Post-Study System Usability Questionnaire (PSSUQ) \cite{sus, psuc}. Кроме этого, пользователям предлагается выбирать из списка эпитеты, которые могут описать их впечатления от программного продукта. Нагрузка может оцениваться в соответствии с опробованной ранее экспресс"=методикой \cite{bstu16}, по которой регистрируются быстрота выполнения заданий, физическая и умственная нагрузка, направление взгляда пользователя \cite{kaluga17}. Для оценки концентрации внимания нами использовалась метрика <<Attention>> бытового энцефалографа Neurosky Mindwave, физическая нагрузка оценивалась по частоте сердечных сокращений (ЧСС), измеряемой фитнес-трекером, а для регистрации направления взгляда применялись айтрекеры фирмы Tobii. Сбор и первичная обработка данных выполнялись в параллельном режиме программной системой, разработанной в рамках проекта UXDump. \section{Методика проведения} Проведение тестирования было разделено на следующие части: \begin{enumerate} \item \emph{Составление сценария использования}, включающего типовые задания для использования программного продукта с нарастающей сложностью, что позволяет отследить тенденцию обучаемости. Задания составляются исходя из опыта респондентов. \item \emph{Набор участников} одной возрастной группы, имеющих сходный опыт работы с продуктами-аналогами. Оговаривается время проведения каждой стадии эксперимента. \item \emph{Инструктаж} (приветствие, описание мероприятия, целей исследования, метрик и тестов, подписание соглашения на предоставление и обработку персональных данных). \item \emph{Вводное интервью} (заполнение анкеты участника, проверка уровня владения продуктами-аналогами, проведение психологических тестов~--- в нашем случае теста Айзека на определение темперамента и теста Равена на уровень интеллекта). \item \emph{Демонстрационный показ работы с продуктом}. \item \emph{Ожидания от работы с продуктом} (заполняются опросники SUS, обсуждаются основные вопросы использования, особенности функционала). \item \emph{Настройка системы} (в зависимости от имеющегося оборудования, подключение и калибровка биометрических датчиков, айтрекера, а также настройка видео-протоколирования и захвата видео с экрана). \item \emph{Работа с продуктом} (выполнение тестовых заданий с ведением протокола менеджером, где фиксируются реакции пользователя). \item \emph{Сбор итоговых впечатлений} (заполняются опросники PSSUQ, проводится ретроспектива). \end{enumerate} Важно, что в ходе эксперимента менеджеры, регистрируя время и реакцию пользователей, не вмешиваются в ход выполнения заданий. В нашем случае менеджеры подбирались из круга респондентов, были с ними знакомы, что могло снизить стресс. Ответы на вопросы <<Как это сделать?>> должны быть расплывчаты («А как вы сами думаете?», «А что бы вы сделали в реальной жизни?»), т.~к. это мотивирует респондента разбираться с системой и не смещает фокус. Также респонденты знают о видео-наблюдении, но внимание в ходе теста на этом не акцентируется. \section{Апробация на примере табличных процессоров} Апробация методики выполнялась на задаче сравнения эргономики табличных процессоров, входящих в состав современных офисных пакетов. В качестве подопытных выступали студенты в возрасте 18--19 лет, получающие техническое образование, которые имеют представление о табличном процессоре, но не используют его ежедневно. Для тестирования были выбраны Microsoft Excel 2016 и LibreOffice Calc 5.4.4. В тестировании участвовали 14 респондентов. Выбор был обоснован следующими соображениями: \begin{itemize} \item современный табличный процессор является мощным приложением с развитым функционалом и сложными инструментальными средствами управления; \item ограниченное владение подопытных приложениями данного типа позволяет оценить, как особенности интерфейса приложения влияют на освоение его функционала. \end{itemize} Заметим, что ленточные интерфейсы имеют опредённые преимущества для сложных приложений \cite{bstu16}. Но т.~к. сравнение классических и ленточных интерфейсов чаще проводится на примере текстовых процессоров, представляет дополнительный интерес их сравнение на сложных задачах другого типа. Кроме того, интересно оценить и результативность переработки, которую претерпел Libreoffice Calc 5. В ходе вводного интервью три респондента были отсеяны по тесту Айзенка из-за низкой эмоциональной устойчивости и/или непреодоления порога достоверности теста, а один~-- по тесту Равена, показавшему существенно отличающийся от остальных респондентов уровень интеллекта, не вписывающийся в средние показатели группы. Результаты снятия метрик приведены в таблице. Как можно заметить, работа в Calc проходила успешнее и быстрее, при меньшем уровне стресса. Анализ показал отсутствие изменений употребления негативных прилагательных при описании интерфейса Excel до и после эксперимента (8 случаев), в то время как для Calc таких случаев было 8 до эксперимента и 7 после. Для обоих пакетов заметна тенденция, когда респонденты чаще считали его более полезным и эффективным после тестирования, чем до. Мнение о простоте использования Excel в процессе работы снизилось на 67\%, а мнение о простоте использования Calc~--- на 25\%. Аналогично можно сказать об оценках экономии времени при использовании пакета (Excel~--- снижение на 60\%, Calc~--- снижение на 50\%). При этом есть категория пользователей, полностью справившихся с тестом только в Calc. Основными проблемами, выявленными при при выполнении заданий в Excel оказались частое отсутствие корректных подсказок, сложный и запутанный поиск нужного функционала, неинтуитивность пользовательских настроек, низкая заметность элементов. При работе с Calc наблюдались проблемы заметности некоторых элементов управления и поиск имён функций по общему справочнику. Заметим также, что некоторые пользователи после работы с Excel нашли его <<личным>>, <<покровительствующим>>, <<властным>>, <<неконтролируемым>> и <<вызывающим смущение>>, а Calc~--- <<высококачественным>>, <<нетрадиционным>>, <<насыщенным>>, <<захватывающим>>, <<вызывающим смущение>>, <<ценным>>, и немного <<разочаровывающим>>. {\tabcolsep=0.4em\footnotesize \begin{center} \begin{tabular}{|l|c|c|} \hline ~ & \textbf{Excel} & \textbf{Calc} \\ \hline \multicolumn{3}{|c|}{\textbf{Результативность}} \\ \hline Минимальное время выполнения всего теста & 23 мин & 22 мин \\ \hline Максимальное время выполнения всего теста & 1 ч 6 мин & 55 мин \\ \hline Среднее время выполнения всего теста & 31 мин & 30 мин \\ \hline Минимальное время выполнения одного задания & 20 сек & 15 сек \\ \hline Максимальное время выполнения одного задания & 24 мин & 14,5 мин \\ \hline Среднее время выполнения одного задания & 2 мин & 1,5 мин \\ \hline Сколько респондентов выполнили все задания & 14\% & 43\% \\ \hline Наименьший процент выполненных заданий в тесте & 40\% & 50\% \\ \hline Процент выполненных заданий теста & 80\% & 89\% \\ \hline \multicolumn{3}{|c|}{\textbf{Физическая нагрузка}} \\ \hline Максимальная ЧСС & 162 уд/мин & 132 уд/мин \\ \hline Минимальная ЧСС & 59 уд/мин & 74 уд/мин \\ \hline \multicolumn{3}{|c|}{\textbf{Впечатления респондентов}} \\ \hline Процент ожидания по SUS & 51\% & 52\% \\ \hline Процент удовлетворения по PSSUQ & 64\% & 64\%\\ \hline Рост тенденции (от ожидания к удовлетворению) & 16\% & 16\% \\ \hline \end{tabular} \end{center} } \begin{thebibliography}{9} \bibitem{sus} \textit{Sauro J.} Measuring usability with the system usability scale (SUS). \url{https://measuringu.com/sus/} Posted on February 2, 2011. \bibitem{psuc} Post-Study System Usability Questionnaire (PSSUQ). // UX Glossary \url{http://www.conetrees.com/2010/12/ux-glossary/post-study-system-usability-questionnaire-pssuq} Posted on December 10, 2010. \bibitem{bstu16} \textit{Костюк Д.А., Латий О.О., Маркина А.А.} Подход к биометрической оценке эргономики графического интерфейса пользователя // Вестник Брестского государственного технического университета. Физика, математика, информатика.~--- 2016.~--- № 5(101).~--- С. 46--49. \bibitem{kaluga17} \textit{Дубицкий А., Костюк Д., Маркина А., Фомин С.} Применение айтрекеров для юзабилити-исследований в GNU/Linux // Четырнадцатая конференция разработчиков свободных программ: Тезисы докладов.~--- Калуга, 22--24 сентября 2017 г. М.: Базальт СПО, 2017.~--- С. 36--41. \end{thebibliography} </latex> {{LinksSection}} <!-- <blockquote>[©]</blockquote> --> {{fblink|2006609586258719}} {{vklink|1016}} <references/> [[File:{{#setmainimage:Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018)!.jpg}}|center|640px]] {{stats|disqus_comments=0|refresh_time=2021-08-31T17:52:56.686104|vimeo_plays=26|youtube_comments=0|youtube_plays=22}} [[Категория:OSEDUCONF-2018]] [[Категория:Юзабилити исследования]] [[Категория:Linux]] |
Текущая версия на 14:42, 5 сентября 2021
- Докладчик
- Анастасия Маркина
В работе представлен комплексный подход к оценке эффективности взаимодействия пользователя с программным обеспечением на платформе GNU/Linux, включающий комбинированное использование методов психологического анализа и биометрического подхода. Используемые методы включают в себя прохождение тестов, заполнение опросников, протоколирование действий пользователя и коммуникативное взаимодействие с ним, а также измерение биометрических показателей. Приводятся разработанные на принципах свободного контента материалы, а также результаты апробации подхода на задаче сравнения свободных и коммерческих табличных процессоров.
Содержание
Видео
Посмотрели доклад? Понравился? Напишите комментарий! Не согласны? Тем более напишите.
Презентация
Thesis
Примечания и ссылки
Plays:48 Comments:0