Статистика частей речи гипотетически помогла бы выявить различия между документами. Большее количество глаголов в каком либо из текстов показало бы, что он более динамичен, а если было бы обнаружено можно было утверждать о большей красочности текста
Ход работы
Все слова нелемматизированных текстов получили POS-теги с помощью Spacy. Это был не самый точный инструмент для русского языка: из около 3100 глагольных лемм первой книги в переводе Росмэн чуть больше 100 были определены неверно. Было решено, что это незначительная погрешность и с полученными данными всё равно можно работать
Статистику POS-тегов собрали в SQL и экспортировали в формате xlsx для простоты работы
Анализ и визуализация данных в Excel (можно было сделать и с помощью Python+ SQL, но я не умею)
Результаты
inconclusive
Наибольшая разница (более чем 50%) была выявлена между междометиями первой книги: 62 в переводе от Махаон против 137 в переводе от Росмэн, выполненного в основном И.Оранским. Известно, что этот переводчик вставил много междометий, которых не было в оригинале (особенно в речь Хагрида). Впрочем, эта разница теряется, если рассмотреть её на фоне объема всего текста
Диаграммы распределения частей речи в переводах первой книги серии от издательств. Графики практически не отличаются. С другими частями серии похожая картина