Увеселения со Spacy

Гарри Поттер и Переводчики

Увеселения со Spacy

Статистика частей речи гипотетически помогла бы выявить различия между документами.
Большее количество глаголов в каком либо из текстов показало бы, что он более динамичен, а если было бы обнаружено можно было утверждать о большей красочности текста

Ход работы

Все слова нелемматизированных текстов получили POS-теги с помощью Spacy. Это был не самый точный инструмент для русского языка: из около 3100 глагольных лемм первой книги в переводе Росмэн чуть больше 100 были определены неверно. Было решено, что это незначительная погрешность и с полученными данными всё равно можно работать
Статистику POS-тегов собрали в SQL и экспортировали в формате xlsx для простоты работы
Анализ и визуализация данных в Excel (можно было сделать и с помощью Python+ SQL, но я не умею)

Результаты

inconclusive

Наибольшая разница (более чем 50%) была выявлена между междометиями первой книги: 62 в переводе от Махаон против 137 в переводе от Росмэн, выполненного в основном И.Оранским. Известно, что этот переводчик вставил много междометий, которых не было в оригинале (особенно в речь Хагрида). Впрочем, эта разница теряется, если рассмотреть её на фоне объема всего текста

Диаграммы распределения частей речи в переводах первой книги серии от издательств. Графики практически не отличаются. С другими частями серии похожая картина

Расшифровка тегов

ADJ: прилагательное
ADP: предлог
ADV: наречие
AUX: вспомогательный глагол
CONJ: союз
DET: determiner
INTJ: междометие
NOUN: существительное
NUM: числительное
PART: частица
PRON:местоимение
PROPN: имя собственное
PUNCT: пунктуация
SCONJ: подчинительный союз
SYM: символ
VERB: глагол
X: др