SoftTeco и МГЛУ: ПО для построения корпуса текста
SoftTeco на протяжении многих лет сотрудничает с университетами, МГЛУ – один из наших партнеров. Нынешние студенты – это наши будущие коллеги. Для SoftTeco важен уровень подготовки студентов, так как те знания и навыки, которые студенты разовьют в период обучения, мы сможем сразу использовать на практике.
В 2022 году мы провели работу по созданию системы лингвистического построения корпуса текстов с МГЛУ. Тогда команда SoftTeco создала специальное приложение, которое позволяет тегировать (помечать определенными метками) текст и получать статистику использования выбранных слов в тексте в разрезе различных характеристик: по социальным ролям героев, эмоциональному выражению, литературным способам выражения. Далее по этой статистике мы можем выделить, какими способами выражения пользуется автор, а какие лучше использовать переводчику. В 2022 году качестве текстового материала мы использовали оригинал на шведском языке и перевод на белорусский язык повести “Малыш и Карлсон, который живет на крыше” А. Линдгрен. Исследование использовалось в магистерской диссертации Виталины Мельник, учащейся МГЛУ.
Созданное ПО позволяет делать сравнительный анализ переводов и текстовых интерпретаций, подмечая фундаментальные особенности языка и культурной принадлежности автора и переводчика.
В этом году наш совместный проект на стыке лингвистики, математики и программирования получил новое развитие. Мы взяли более серьезное произведение и усовершенствовали систему. Наталья Богданова, научный руководитель, и Надежда Носкевич, магистрантка МГЛУ, и команда SoftTeco исследуют текст “Убить пересмешника” Харпер Ли. Роман был написан в 1960 году, за него писательница получила Пулитцеровскую премию. Уже в 1963 году роман перевели на русский язык Нора Галь и Раиса Облонская. Корней Чуковский причислил перевод этой повести к числу «переводов, которые могли бы пригодиться молодым переводчикам в качестве образцов и учебников».
Произведение имеет не только лингвистическую, но и художественную ценность. Сюжет рассказывает историю темнокожего парня, которого незаслуженно осудили за изнасилование. Книга раскрывает важные остросоциальные вопросы. Среди таких отношение американцев к темнокожим людям, ксенофобия, гуманизм, понятия “плохой”/”хороший” в плане личных поступков и отношения к поступкам других людей.
За техническую часть создания ПО по анализу корпуса текстов отвечала команда SoftTeco из Минска и Витебска:
- Настя Акимова, Java Developer
- Артур Фоничкин, Java Developer
- Евгений Янченко, Frontend Developer
- Виктор Петров, Project Manager
Благодаря усовершенствованным инструментам разработки, планирования и коммуникации нам удалось выстроить эффективные процессы работы между командами в онлайн-режиме.
Настя Акимова, Java Developer, рассказывает:
– Всегда интересно работать на стыке наук. Это позволяет связать то, что делается в каждой из областей, и получить синергию программирования, лингвистики и математики. Проект по созданию корпуса текста именно такой. В нем мы стараемся привести абстрактные вещи – чувства, описания, слова – к конкретным параметрам – статистическому подсчету. Наша работа вдохновила меня прочесть этот роман.
Евгений Янченко, Frontend Developer, добавляет:
– Наше приложение позволяет выявить закономерности сопоставления языков, что в результате приведет к наилучшей коммуникации текста с читателем, к наилучшему пониманию автора аудиторией из другой страны, другой культуры.

Евгений Янченко, Frontend Developer SoftTeco
Работа команд SoftTeco и Минского лингвистического университета получилась плодотворной. Своими впечатлениями о проделанной работе и применении модели поделилась Наталья Альбертовна Богданова, кандидат филологических наук, доцент:
– Такой подход обеспечивает нелинейное прочтение текста и возможность построения на основе полученных данных лингвостатистической модели литературного персонажа. Эта модель представляет собой набор структурированных данных о социальных ролях персонажа и его характеристиках в каждой социальной роли с учетом частоты встречаемости характеристик. Кроме того, можно увидеть, как представлены эти характеристики в тексте: через авторскую речь, прямую/внутреннюю речь самого персонажа или других героев.
Далее исследователь может пойти разными путями в использовании лингвостатистической модели литературного персонажа. Например, можно построить схожую модель для переводного текста и заняться анализом сходств и различий характеристик персонажа на базе параллельных моделей. Можно, оставаясь в рамках одноязычной модели, проанализировать корреляцию отдельных характеристик персонажа в разных социальных ролях, а также способы выражения этих характеристик. Данная методика расширяет возможности интерпретации художественного текста с опорой на структурированные точные данные.
SoftTeco помогает университетам не только в создании учебных программ, но и занятиями, которые развивают студентов. Совместные исследования университетов и производственных компаний по разработке ПО – это новый уровень взаимодействия. Для получения максимального результата с одной стороны создания приложения выступают люди из научного сообщества, которые хорошо знают предметную область, с другой – профессионалы математики, программирования и управления проектами.
Генри Форд, изобретатель и менеджер, однажды сказал: “Объединяться вместе – начало, быть вместе – прогресс, и работать вместе – успех”. Наша разработка уже показала себя как успешная, и команда SoftTeco планирует развивать ее дальше совместно с нашими коллегами-лингвистами.
0 Комментариев