Увеселения со Spacy
Статистика частей речи гипотетически помогла бы выявить различия между документами.
Большее количество глаголов в каком либо из текстов показало бы, что он более динамичен, а если было бы обнаружено можно было утверждать о большей красочности текста
Ход работы
  • Все слова нелемматизированных текстов получили POS-теги с помощью Spacy. Это был не самый точный инструмент для русского языка: из около 3100 глагольных лемм первой книги в переводе Росмэн чуть больше 100 были определены неверно. Было решено, что это незначительная погрешность и с полученными данными всё равно можно работать
  • Статистику POS-тегов собрали в SQL и экспортировали в формате xlsx для простоты работы
  • Анализ и визуализация данных в Excel (можно было сделать и с помощью Python+ SQL, но я не умею)
Результаты
inconclusive
Наибольшая разница (более чем 50%) была выявлена между междометиями первой книги: 62 в переводе от Махаон против 137 в переводе от Росмэн, выполненного в основном И.Оранским. Известно, что этот переводчик вставил много междометий, которых не было в оригинале (особенно в речь Хагрида). Впрочем, эта разница теряется, если рассмотреть её на фоне объема всего текста
Диаграммы распределения частей речи в переводах первой книги серии от издательств. Графики практически не отличаются. С другими частями серии похожая картина
Расшифровка тегов
  • ADJ: прилагательное
  • ADP: предлог
  • ADV: наречие
  • AUX: вспомогательный глагол
  • CONJ: союз
  • DET: determiner
  • INTJ: междометие
  • NOUN: существительное
  • NUM: числительное
  • PART: частица
  • PRON:местоимение
  • PROPN: имя собственное
  • PUNCT: пунктуация
  • SCONJ: подчинительный союз
  • SYM: символ
  • VERB: глагол
  • X: др
© 2014 Universal Dependencies contributors. Site powered by Annodoc and brat
.

This site was made on Tilda — a website builder that helps to create a website without any code
Create a website