Морфей для Китайского языка (Михаил Быков, OSSDEVCONF-2017)
Материал из 0x1.tv
- Докладчик
- Михаил Быков
Принципы, применявшиеся для разработки приложения Морфей для древних языков, доказали свою эффективность и при работе над языком современным, а именно Китайским.
Видео
Посмотрели доклад? Понравился? Напишите комментарий! Не согласны? Тем более напишите.
Thesis
Скринкаст: [1]
Установить: [2]
Морфей не ставит задачу выполнения перевода анализируемого текста. Но задачу автоматизации процесса чтения и понимания каждого читаемого слова.
Морфей:
- позволяет читать Китайский, и упрощенный, и классический варианты
- расширения для иных идеографических письменностей (Тибетский, Японский, etc) в работе
- приложение основано на CouchDB, а следовательно, является распределенным, многопользовательским, и легко
масштабируемым
- в качестве локальной БД используется PouchDB, то есть для каждой платформы подключается свой, оптимизированный и
рекомендованный вариант БД
- кроссплатформенный — Windows, MacOS, Linux, мобильные будут позже
- интерфейс основан на Electron.js, то есть это по сути, браузер Chromium
- работает оффлайн, синхронизируется с сервером, когда доступна сеть
- синхронизация гарантирует постоянную актуальность словарей
- работает где угодно на десктопе, а не только в браузере
- многопользовательский (пользователь может добавлять/редактировать записи)
- можно на лету подключать/заменять словари, англ, нем, русский, etc, в том числе специализированные словари
- синхронизируются только установленные словари, возможна тонкая настройка репликации (filtered replication)
- одновременно обрабатывает большой объем (несколько абзацев) текста
- выполняет рекурсивную сегментацию длинного слова (сегментирует сегменты)
- преобразует упрощеннное-традиционное написание текста по желанию читателя
Из недостатков метода нужно отменить его ресурсоемкость. Несколько подключенные словарей, большой объем разом анализируемого текста — слабую машину вешают на десятки секунд.
Из позитивного нужно отметить, что работа с локальной базой данных радикально снижает нагрузку на сервер и обеспечивает очень быстрое выполнение запроса.
Благодаря CouchDB синхронизация с сервером появляется «из коробки», и не требует вообще никаких усилий по настройке.
Рекурсивная сегментация позволяет выполнять углубленный анализ слова. А также, что немаловажно, решает интерфейсную и эргономическую проблему, хорошо заметную в аналогичных приложениях. Они либо не показывают внутреннюю структуру сегмента текста, либо приводят весть набор возможных внутренних сегментов сразу, что затрудняет восприятие, и следовательно, понимание текста.
Петер Хауер (linguasoft, Vienna) создал для Морфея словарь ECBT («Early Chinese Buddhist translations»), основанный на фундаментальной работе проф. Seishi Karashima (Soka University, Tokyo). См. [3]
Я надеюсь на появление также иных вспомогательных словарей, например, словаря компьютерной лексики, etc
То, что Морфей не ставит задачу перевода текста, делает его нишевым продуктом. В это смысле он вне мейстрима. Но хорошо очерченная узкая задача (автоматизация понимания ино-культурного текста, а не чтение готового перевода) позволяет сделать приложение достаточно эффективным очень малыми средствами.
Примечания и ссылки
Plays:17 Comments:0