Математика и её применения

Лингвист объяснил, почему мы так часто говорим "в" и "на"

15 августа 2017 11:16
GLP
Иллюстрация Radboud University.
Предложено новое объяснение закону Ципфа – таинственной закономерности, определяющей, какие слова мы употребляем чаще других.

В частотном словаре русского языка слово "работа" находится на 87 месте (правда, при попытке объяснить это своему начальнику есть шанс оказаться лингвистически подкованным безработным). Любопытно, что самое популярное в нашем языке слово – союз "и". Важные в жизни предлоги "в" и "на" занимают второе и четвертое места, на третьем обосновалась частица "не", а дорогое сердцу местоимение "я" занимает почётную пятую позицию.

Но вот что ещё более любопытно: первое слово в рейтинге встречается в текстах примерно в два раза чаще, чем второе, в три раза чаще, чем третье, и так далее. Эта удивительная закономерность, известная как закон Ципфа, давно интересует лингвистов. О ней известно с начала XX века, но в эпоху компьютеров, позволяющих быстро обработать огромные массивы текста, такие исследования активизировались.

Предлагаются самые разные гипотезы. Одни учёные считают, что это чисто лингвистический феномен, и ищут его объяснение в природе языка. Другие обращают внимание, что похожими законами описывается частота лавин, землетрясений и, возможно, даже войн. Следовательно, заключают они, ответ нужно искать в общих законах самоорганизации, которые для науки ещё во многом остаются загадкой.

Наконец, некоторые эксперты настаивают, что такому закону будет подчиняться даже случайный набор символов, поэтому никакого особенного объяснения не нужно.

Новый взгляд на природу закона Ципфа предложил Сандер Лестрейд (Sander Lestrade), лингвист из Университета Радбуда в Неймегене, Нидерланды. Широко известно, что важнейшими компонентами нашей речи являются синтаксис (законы, по которым слова соединяются в предложения) и семантика (значения слов). Лестрейд показал, как из взаимодействия этих двух столпов языка возникает закон Ципфа.

Во-первых, он обращает внимание на то, какой частью речи является слово: прилагательным ли, глаголом и так далее. Например, в английском языке у каждого существительного должен быть артикль, но первых всего два, а вторых несколько тысяч – ясно, что артикли будут встречаться много чаще, чем любое существительное. Так частотностью управляют грамматические законы.

Но, кроме того, Лестрейда интересовало, насколько общим является значение слова. Например, "вещь", "предмет" – довольно абстрактные понятия, а вот "подводная лодка" – очень конкретный. Про всякую субмарину можно сказать, что она предмет, а вот наоборот уже не получится.

Учёный предположил, что общие, абстрактные слова используются чаще, поскольку обозначают целые классы объектов. Он построил компьютерную модель, которая объединяет эти две характеристики – грамматическую роль слова и широту его значения. Полученные результаты оказались очень близки к графикам, подчиняющимся закону Ципфа. "Я очень рад этому результату и убеждён, что моя гипотеза верна. Но она всё ещё нуждается в подтверждении другими лингвистами", – говорит Лестрейд.

Статья голландского исследователя вышла в журнале PLoS One.