Skip to content Skip to main navigation Skip to footer

SoftTeco и МГЛУ: ПО для построения корпуса текста

Настя Акимова

SoftTeco на протяжении многих лет сотрудничает с университетами, МГЛУ – один из наших партнеров. Нынешние студенты – это наши будущие коллеги. Для SoftTeco важен уровень подготовки студентов, так как те знания и навыки, которые студенты разовьют в период обучения, мы сможем сразу использовать на практике.

В 2022 году мы провели работу по созданию системы лингвистического построения корпуса текстов с МГЛУ. Тогда команда SoftTeco создала специальное приложение, которое позволяет тегировать (помечать определенными метками)  текст и получать статистику использования выбранных слов в тексте в разрезе различных характеристик: по социальным ролям героев, эмоциональному выражению, литературным способам выражения. Далее по этой статистике мы можем выделить, какими способами выражения пользуется автор, а какие лучше использовать переводчику. В 2022 году качестве текстового материала мы использовали оригинал на шведском языке и перевод на белорусский язык повести “Малыш и Карлсон, который живет на крыше” А. Линдгрен. Исследование использовалось в магистерской диссертации Виталины Мельник, учащейся МГЛУ.

Созданное ПО позволяет делать сравнительный анализ переводов и текстовых интерпретаций, подмечая фундаментальные особенности языка и культурной принадлежности автора и переводчика.

В этом году наш совместный проект на стыке лингвистики, математики и программирования получил новое развитие. Мы взяли более серьезное произведение и усовершенствовали систему. Наталья Богданова, научный руководитель, и Надежда Носкевич, магистрантка МГЛУ, и команда SoftTeco исследуют текст Убить пересмешника” Харпер Ли. Роман был написан в 1960 году, за него писательница получила  Пулитцеровскую премию. Уже в 1963 году роман перевели на русский язык  Нора Галь и Раиса Облонская. Корней Чуковский причислил перевод этой повести к числу «переводов, которые могли бы пригодиться молодым переводчикам в качестве образцов и учебников».

Произведение имеет не только лингвистическую, но и художественную ценность. Сюжет рассказывает историю темнокожего парня, которого незаслуженно осудили за изнасилование. Книга раскрывает важные остросоциальные вопросы. Среди таких отношение американцев к темнокожим людям, ксенофобия, гуманизм, понятия “плохой”/”хороший” в плане личных поступков и отношения к поступкам других людей.

За техническую часть создания ПО по анализу корпуса текстов отвечала команда SoftTeco из Минска и Витебска:

  • Настя Акимова, Java Developer
  • Артур Фоничкин, Java Developer
  • Евгений Янченко, Frontend Developer
  • Виктор Петров, Project Manager

Благодаря усовершенствованным инструментам разработки, планирования и коммуникации нам удалось выстроить эффективные процессы работы между командами в онлайн-режиме.

Настя Акимова, Java Developer, рассказывает:
Всегда интересно работать на стыке наук. Это позволяет связать то, что делается в каждой из областей, и получить синергию программирования, лингвистики и математики. Проект по созданию корпуса текста именно такой. В нем мы стараемся привести абстрактные вещи – чувства, описания, слова – к конкретным параметрам – статистическому подсчету. Наша работа вдохновила меня прочесть этот роман.

Евгений Янченко, Frontend Developer, добавляет:
– Наше приложение позволяет выявить закономерности сопоставления языков, что в результате приведет к наилучшей коммуникации текста с читателем, к наилучшему пониманию автора аудиторией из другой страны, другой культуры.

SoftTeco и МГЛУ: ПО для построения корпуса текста

Евгений Янченко, Frontend Developer SoftTeco

Работа команд SoftTeco и Минского лингвистического университета получилась плодотворной. Своими впечатлениями о проделанной работе и применении модели поделилась Наталья Альбертовна Богданова, кандидат филологических наук, доцент:

Такой подход обеспечивает нелинейное прочтение текста и возможность построения на основе полученных данных лингвостатистической модели литературного персонажа. Эта модель представляет собой набор структурированных данных о социальных ролях персонажа и его характеристиках в каждой социальной роли с учетом частоты встречаемости характеристик. Кроме того, можно увидеть, как представлены эти характеристики в тексте: через авторскую речь, прямую/внутреннюю речь самого персонажа или других героев.  

Далее исследователь может пойти разными путями в использовании лингвостатистической модели литературного персонажа. Например, можно построить схожую модель для переводного текста и заняться анализом сходств и различий характеристик персонажа на базе параллельных моделей. Можно, оставаясь в рамках одноязычной модели, проанализировать корреляцию отдельных характеристик персонажа в разных социальных ролях, а также способы выражения этих характеристик. Данная методика расширяет возможности интерпретации художественного текста с опорой на структурированные точные данные.

SoftTeco помогает университетам не только в создании учебных программ, но и занятиями, которые развивают студентов. Совместные исследования университетов и производственных компаний по разработке ПО – это новый уровень взаимодействия. Для получения максимального результата с одной стороны создания приложения выступают люди из научного сообщества, которые хорошо знают предметную область, с другой – профессионалы математики, программирования и управления проектами. 

Генри Форд, изобретатель и менеджер, однажды сказал: “Объединяться вместе – начало, быть вместе – прогресс, и работать вместе – успех”. Наша разработка уже показала себя как успешная, и команда SoftTeco планирует развивать ее дальше совместно с нашими коллегами-лингвистами.

0 Комментариев

Комментариев пока нет

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *