Diglossa.js — система подготовки и публикации дву-(много-)язычных текстов (Михаил Быков, OSEDUCONF-2019) — различия между версиями
Материал из 0x1.tv
StasFomin (обсуждение | вклад) |
StasFomin (обсуждение | вклад) |
||
{{LinksSection}} <!-- <blockquote>[©]</blockquote> --> {{fblink|2242732035979805}} {{vklink|1396}} <references/> [[Категория:OSEDUCONF-2019]] [[Категория:Open-source projects]] [[Категория:Natural Language Processing]] {{stats|disqus_comments=0|refresh_time=2020-07-18T21:41:182021-08-25T01:37:31.252924909701|vimeo_plays=159|youtube_comments=0|youtube_plays=}}10}} |
Версия 22:37, 24 августа 2021
- Докладчик
- Михаил Быков
diglossa.js построена на голом исходном авторитетном тексте, в который не вносятся изменения и который хранится в системе контроля версий (github.com). К тексту последовательно пристраиваются слои (layers), привязанные к конкретному месту текста якорями. Таким образом можно получить результат любой сложности, сохранив исходный текст в неприкосновенности. Добавочными слоями к тексту могут быть: предисловия, комментарии, пагинации, параллельные тексты, логические разметки, примечания издателей, любая мета-информация и т.п. Этот подход даёт возможность использования свободной лицензии на результат при ограниченных лицензиях на исходные тексты. Использовать diglossa.js не сложнее, чем хорошо известный FB2-Reader, подготовка текста занимает минуты.
Содержание
Видео
Thesis
Лирика
Носители письменного текста начинались с глиняных табличек и листьев растений, сейчас носители тех же самых текстов превратились в энтерпрайз-системы с джавой, обслуживаемые коллективами учёных и айтишников. Тексты были редки и дороги, и сейчас доступны обрывки и некачественные списки, фейки. Собственно авторитетные тексты так же редки и ещё более дороги, чем в момент своего появления. Тексты обрастают грязью, как корабли ракушками. Создаются всё более сложные системы, начиная с MS-Word. Текст как просто текст в обороте отсутствует. Даже просто скопировать аккуратно текст обычными средствами невозможно — если нужно аккуратно скопировать (например ssh-ключ), приходится использовать специальную утилиту — ssh-copy-id. А кроме неё, ничего для работы с просто текстом нет.
Количество информации удваивается каждые два года. Измеряется уже то-ли в зета-байтах, то-ли в пета-байтах, не помню. Но мы умнее и грамотнее в той же пропорции очевидно не становимся. Из этого следует, кстати, что наши знания с информацией не связаны, их графики не коррелируют. И спросите в любой аудитории, что такое информация, и что такое знания, сколько публики, столько будет и ответов.
Сами слова обрастают грязью, как корабли ракушками. В 5 веке китайский монах Сюаньцзан написал трактат « Записки о западных странах», в 15 веке У Чэнъэнь написал его пересказ «Путешествие на Запад», толстый том, один из 4 классических китайских романов, со всеми тантрическими чудесами, демонами и заклинаниями, в 21 веке в Голливуд в Китае снимает серию блокбастеров «Путешествие на Запад — покорение демонов» с миллиардными оборотами. О взрывном увеличении потока фейков даже и говорить скучно. Грязью обрастает любое слово, видимо, это закон природы.
Недавно ещё в почте использовался текст, сейчас это без исключения html. Текста без www-urlencoded больше нет. Текст, как сказал когда-то Ницше, умер.
Технические подробности
Утилита diglossa.js имеет целью работу с текстом. Можно использовать её простейшим образом. Можно взять любой табличный редактор, типа MS-Excel, и в нём расположить тексты (один или более) в колонках, сохранить файл и открыть его в Диглоссе. Читатель сразу получает удобный интерфейс, полнотекстовый поиск и интеграцию с утилитами типа Морфея (при проводе мышью над словом сразу получает результат обработки слова в Морфее). В тексты можно вносить исправления и сразу видеть результат. Убедившись, что результат вам нравится, то есть смыслы всех текстов в каждой строке соответствуют друг другу, можно опубликовать результат в вебе в один клик.
Но кроме этого, можно также опубликовать исходные тексты, в виде текстов, в специальном репозитории на github.com, или в любой другой системе контроля версий. Следующий читатель может загрузить любой из текстов, или все, уже из репозитория.
Вариант с табличным редактором добавлен для удобства работающих с текстами. Основным же вариантом является первичное чтение текстов из файлов дерева директорий, или из сети. Таким образом можно получить структуру текста любой сложности. Работа начинается с чтения файла манифеста, any-name.json, в котором есть единственное обязательное поле: путь к дереву директорий. Или адрес ресурса. Может быть добавочный the-same-name-local.json, который содержит сведения, которые публиковать не нужно.
Если все ресурсы указаны как удалённые, для распространения (публикации) результата достаточно опубликовать только файл манифеста. И затем открыть его в Диглоссе.
К исходному тексту могут быть добавлены не только параллельные тексты целиком, но и любой текст к любому месту в исходном тексте. Это достигается системой слоёв (layers) и якорей. Собственно, параллельные тексты являются одним из примеров слоя. Другие примеры: предисловия и справочники, комментарии, пагинации, логические разметки, картинки и примечания издателей, любая мета-информация и режим учебника, когда исходный текст представляется вставками, цитатами в обрамлении нового текста. (В публикуемых пакетах по большей части все эти возможности пока не реализованы). Использовать сложную систему слоёв без необходимости не обязательно. Например, в большинство текстов логическая разметка может быть внесена попросту в текст. Сейчас нет возможности добавлять в Electron.js плагины, но в близком будущем обработку слоёв можно будет добавлять по желанию.
Поскольку используются только известные и популярные web-технологии (Node.js, Electron.js и CouchDB), то можно так же добавить свои стилевые таблицы. CouchDB нужен потому, что Diglossa.js и Morpheus.js работают в связке, и имеют возможность создания на лету локального словаря для конкретного текста или группы текстов. При этом читатель будет иметь возможность вносить добавления и исправления в словари на лету. Следовательно, нужна система синхронизации между всеми мобильниками, десктопами и серверами, что и обеспечивает CouchDB. Кроме этого, Node.js и CouchDB используют JSON как основную структуру представления данных, то есть дерево. А в языкознании все данные имеют структуру дерева. Почему обычно в этих задачах используется Питон, для меня загадка.
При этом исходный текст в обычной работе никак не затрагивается. А если в него действительно вносится изменение (исправляется опечатка), в репозитории результат появится в виде git merge request, и может быть принят или отклонён.
Лицензия
Таким образом, появляется возможность использовать свободную лицензию на результат. Старожилы конференции помнят, что несколько лет назад обсуждалась возможность использования свободных лицензий для художественных, а не программных тестов, музыкальных и изобразительных произведений и т.д. Вывод был сделан не утешительный, — свободные лицензии лицензии в художественных текстах использовать невозможно, поскольку сама их художественность связана с личностью автора, и любое внесение изменения автоматически нарушит не отменяемое никакой лицензией авторское право. В случае же данного подхода появляется пространство для работы над текстом, не вносящее изменений в текст. И если лицензия исходного текста позволяет только его распространение, то он может быть включён в результат, сам имеющий свободную лицензию.
Лирика
Таким образом, diglossa.js является прообразом библиотеки будущего, когда распространяется не книга в переплёте, а только лишь необходимая часть текста с необходимым аппаратом. Вспомните здесь об усилиях, предпринимаемых государством по сохранению системы заскорузлых бумажных библиотек. Превращению простого текста в чудовищные информационные системы может быть противопоставлена культура распространения авторитетного текста со свободной лицензией. А касте служителей информационных систем — сообщество грамотных читателей.
- [1] Брукс, Ф., Мифический человеко-месяц, или как создаются программные системы., http://www.lib.ru/CTOTOR/BRUKS/mithsoftware.txt
Примечания и ссылки
Plays:29 Comments:0