When linguistics meets computer science: Stylometry and professional discourse

In an 1887 article, The Characteristic Curves of Composition, published in the journal ‘Science’ and resulting from discussions with the logician Augustus de Morgan, Mendenhall (1888) asserted that the length of words was a characteristic capable of distinguishing authors of a literary text. This study is often considered one of the founders of stylometry as a discipline. This paper analyses the development of stylometry and its use as a computerised analytical tool and explores its potential as a way of identifying authors of online professional communication by the vocabulary and style they use. The objective of this paper is to explain the concept of stylometry as an academic methodology, how it has been adapted to computers and how it is used in online investigation of author and narrative identity. The methodology is based on secondary research to explain how stylometry can be used in author definition and attribution and identification of texts. It goes on to analyse the types of stylometric entities and examines the role of computers in stylometry and its application to professional discourse. The study concludes that although the use of computers is an important quantitative tool in stylometric research, in the end it is human judgement that counts.

    KEYWORDS:
  • stylometry
  • professional discourse
  • lexis
  • structural analysis
  • content analysis
  • Enron
  • Когда лингвистика пересекается с информатикой: Стилометрия и профессиональный дискурс

    В статье 1887 года «The Characteristic Curves of Composition», опубликованной в журнале «Science» и ставшей результатом дискуссий с логиком Августом де Морганом, Менденхолл (1888) утверждал, что длина слов является характеристикой, способной различать авторов литературного текста. Это исследование часто считается одним из истоков стилометрии как дисциплины. В данной статье анализируется развитие стилометрии и ее использование в качестве компьютерного аналитического инструмента, а также исследуется ее потенциал как способа идентификации авторов профессиональной онлайн-коммуникации по используемой ими лексике и стилю. Цель данной работы – объяснить концепцию стилометрии как академической методологии, как она была адаптирована к компьютеру и как она используется в онлайн-исследовании идентичности автора и рассказчика. Методология основана на вторичных исследованиях, чтобы объяснить, как стилометрия может быть использована для определения автора, атрибуции и идентификации текстов. Далее анализируются типы стилометрических единиц, рассматривается роль компьютеров в стилометрии и ее применение в профессиональном дискурсе. Исследование показывает, что, хотя использование компьютеров является важным количественным инструментом в стилометрических исследованиях, в конечном счете, важна человеческая оценка.