лекции 3 4 тема 1

Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ

ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ1.1. Модели и методы представления и организации знаний —

лекции 1-2. 1.2. Количественная спецификация ЕЯ систем —

лекции 3-4, 8. 1.3. Логико-статистические методы извлечения знаний —

лекция 5-7.

ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ

1.4. Технология автоматизированного построения словаря-тезауруса.

1.5. Пример исследования ЕЯ ресурса.

Лекции 3-4.

КОЛИЧЕСТВЕННАЯ СПЕЦИФИКАЦИЯ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ СИСТЕМ

Статистический анализ ЕЯ описания. Модель «ранг-частота». Закон Ципфа. Формула Мандельброта. Статистическое распределение в

модели «ранг-частота». Построение ядра ЕЯ описания.

Литература

Материал лекции представлен в книге:

Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. /

Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, 2002.— книга в комплекте с CD ROM— С. 34–45.

СТАТИСТИЧЕСКИЙ АНАЛИЗ ЕСТЕСТВЕННО-ЯЗЫКОВОГО ОПИСАНИЯ

Лингвистическая статистика, лингвостатистика

— раздел языкознания, занимающийся исследованиями статистическими методами количественных закономерностей

в языке и речи.

Энциклопедия «Русский язык»

(1) в широком смысле — область применения статистических методов в языкознании (то есть опирающаяся на математическую статистику подсчетов и измерений при изучении языка и речи);

(2) в узком смысле — изучение некоторых математических проблем, связанных с лингвистическим материалом, главным образом с типами статистических распределений языковых единиц в тексте.

ПОНЯТИЯ ЛИНГВИСТИЧЕСКОЙ СТАТИСТИКИ

ТЕКСТ

последовательность лингвистических единиц: букв, морфем, словоформ, словосочетаний, предложений и др.количественные характеристики лингвистических форм:

употребительность, совместная встречаемость, законы распределения в тексте, их физические размеры.

ОСНОВНЫЕ ПОНЯТИЯ И КАТЕГОРИИ ЛИНГВОСТАТИСТИКИ:

генеральная совокупность, выборки, частоты и вероятности, вероятностные распределения и статистические оценки.

ВИДЫ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ: Тексты (корпусы текстов). Языковые единицы лингвистического уровня.

ТЕОРИЯ ЧАСТОТ СЛОВ

Предпосылки теории частот слов

А. Методологические (концептуальные) суждения о мире

Б. Эмпирические наблюдения

В. Измерения

Г. Практические приложения

МЕТОДОЛОГИЧЕСКИЕ ПРЕДПОСЫЛКИ ТЕОРИИ ЧАСТОТ СЛОВ

РЕАЛЬНЫЙ МИР (ПОРМ)

<ЗНАНИЯ СУБЪЕКТА О ПОРМ> <ЕЯ ОПИСАНИЕ>

МЕТАЗНАНИЕ

ЗНАНИЕ ОБ ОРГАНИЗАЦИИ ЯЗЫКОВЫХ ЕДИНИЦ (СИНТАГМ):

…, морфемы,

словоформы, словосочетания,

предложения, …,

тексты, …

ЭМПИРИЧЕСКИЕ НАБЛЮДЕНИЯТЕОРИИ ЧАСТОТ СЛОВ

Значительные количественные (номенклатурные) и комбинаторные ограничения на использование языковых единиц.

Существенная избыточность некоторых типов языковых единиц.

Сложная иерархическая структура синтагм. Последовательная во времени организация

языковых единиц.

ИЗМЕРЕНИЯТЕОРИИ ЧАСТОТ СЛОВ

Исследования произведений А.С.Пушкина:словоупотреблений – 545 000; разных слов – 21 000.

Исследования языковой деятельности школьников:корпус текстов(писем, сочинений, заданий и т.п.) – 100 000;

словоупотреблений – 6 000 000; разных словоформ – 25 000; разных слов – 2 500.

Исследования современных английских текстов:словоупотреблений – 250 000; разных словоформ в книжных текстах – 24

000, в разговорных – 10 000.

Исследования французской разговорной речи:50% словоупотреблений – это 37 слов, 75% – 120 слов, 90% – 887 слов; 95% словоупотреблений языка телефонных разговоров – 737 слов.

ПРАКТИЧЕСКИЕ ПРИЛОЖЕНИЯТЕОРИИ ЧАСТОТ СЛОВ

Криптография Стенографирование Полиграфия Редакционно-издательская подготовка рукописей Распознавание текстов (печатных и рукописных) Распознавание аудиовизуальной речи Автоматизированное создание баз данных Автоматический перевод Сжатие данных Информационный поиск Автоматическое индексирование и реферирование

МОДЕЛЬ «РАНГ-ЧАСТОТА»

Жан.-Батист Эступ (Jеаn Bарtistе Estоuр).

Джордж Кингсли Зипф (Gеоrgе Kingslеу Ziрf),

ОПРЕДЕЛЕНИЯ МОДЕЛИ «РАНГ-ЧАСТОТА»

<ТЕКСТ>

<ЧАСТОТНЫЙ СЛОВНИК>

Ранг r

Слово W(r)

Частота f(r)

1 W(1) f(1)

2 W(2) f(2)

…

r W(r) f(r)

Пример:

Ранг r

Слово W(r)

Частота f(r)

1 the 245

2 of 136

3 terms 98

4 to 81

5 a 65

6 and 61

7 in 55

8 we 52

... … …

ЗАКОН ЧАСТОТ СЛОВ ЦИПФА

i(k, r)/k = 0.1r-1 = 1/(10 r), (1.0)

где: i(k,r)/k – относительная частота слова в тексте,

k – общее число слов в тексте,

r – ранг слова, т.е. его порядковый номер в упорядоченном по убыванию частотной функции словнике.

ЛИТЕРАТУРА

Дж. Солтон. Динамические библиотечные информационные системы. М.: Наука, 1979.

Б.Мандельброт. Теория информации и психолингвистика: теория частот слов // Математические методы в социальных науках / Сб. статей под ред. П.Лазарсфельда и Н.Генри. М.: Прогресс, 1973. – С. 316–337.

«ВЫВОД»

ЗАКОНА ЧАСТОТ СЛОВ (1)

Текст — случайная последовательность символов (букв и пробелов). Пробелы обозначают границы между словами.

Обозначим:W(r) — слово; r — ранг слова; k — количество слов; i (r, k)/k — относительная частота слова; р (r) — вероятность слова; р0 — вероятность пробела; М — количество типов букв, М>1, (1 — ро)/М — вероятность буквы в тексте; m — количество букв в слове.

Это может быть записано как

p0exp{-m}, где

=log (M/(1-p0)) — положительная величина, зависящая от ро и М.

Вероятность слова, состоящего из m букв:

«ВЫВОД»


Букв в слове

Типов слов

Пример:

пробел: _; буквы: a,b,c; M=3. Типов слов Вер-ть слова

0 1 _ 1 0.2500

1 M a,b,c 3 0.0625

2 M2 aa, ab, ac, ba, bb, bc, ca, cb, cc 9 0.0153

3 M3 aaa, aab, aac, aba, abb, abc,… 27 0.0038

Ранг 1 2 3 4 5 6 … 12 …

Частота ~ 62 ~ 62 ~ 62 ~ 15 ~ 15 ~ 15 … ~ 15 …

Вер-ть 0.0625 0.0625 0.0625 0.0153 0.0153 0.0153 … 0.0153 …

Зависимость между числом букв m и рангом слова r

Пример: объем текста 1000 символов; пробелов — ~ 250, {a,b,c} — ~ 62; {aa,…cc} — ~ 15; {aaa,…ccc} — ~ 3.

«ВЫВОД»


«ВЫВОД»


Зависимость между рангом и вероятностью: ступенчатая функция, которая постоянна,

когда r изменяется между двумя (Мm— 1)/(М — 1), соответствуя последовательным значениям т.

Если m велико, то:

r (Мm— 1)/(М — 1), r (Мm— 1)/(М — 1);

r(Мm— 1)/(М — 1),

или

«ВЫВОД»


Вероятность слова из m букв

Где:

B = /log M ; =log (M/(1-p0)); Р = p0 (М—1):

Связь между вероятностью слова и его рангом почти идентична закону Ципфа

при значениях B = -1 и P = 0.1

ФОРМУЛА МАНДЕЛЬБРОТА

«Поведение» наиболее часто употребляющихся слов, а также редких, которые характеризуют «богатство словарного

состава» текста не соответствует закону Ципфа.

Формула Б.Мандельброта (Bеnоit Mаndеlbrоt)

i(k,r) = рk (r+v)-b, где: b, k, v – const (1.1)

0

0,02

0,04

0,06

0,08

0,1

0,12

0 5 10 15 20 25 30 35

КриваяМандельброта

КриваяЦипфа

ПАРАМЕТРЫ ФОРМУЛЫ МАНДЕЛЬБРОТА

ОЦЕНКА ПАРАМЕТРОВ

ФОРМУЛЫ МАНДЕЛЬБРОТА (1)

Получим выражения для приближенной оценки параметров в формуле Мандельброта

Для этого выполним следующие преобразования:

где: – относительная частота встречаемости слова.

Таким образом, имеем:

где: (1.2)

;)(),( bvrkprki ,)ln(ln),(

ln ln vebpk

rki r

k

rki ),(

,)ln()( vebPxf x

rxpPk

rkixf ln;ln;

),()(



Представим формулу (1.2) в виде степенного многочлена Тейлора:

)(!

)0(...

!2

)0(

!1

)0()0()( 1

)(2

n

nn

n Ton

xfxfxffxT

....

)()(

)()(

)ln()(

2ve

vebxf

ve

ebxf

vebPxf

x

x

x

x

x



Если коэффициенты в многочлене Тейлора обозначить через С0,C1,...,Cn, то будем иметь:

...

)1(2

1

1

)1ln(

)(...)(

2

1

0

12

210

v

vbC

vbC

vbPC

ToxCxCxCCxf nn

n



Откуда имеем приближенные выражения для параметров через коэффициенты

)1(0

1

2

1

0

)1(

)1(

2

2

vb

C

e

epvbCP

vCb

CC

v



Получим коэффициенты степенного ряда методом наименьших квадратов по имеющимся значениям частотной функции.

Имеем S(T) = (<w, N(w,T)>).

)),(

),(ln(,ln

TwN

TwNr

),(

),(

TwN

TwN

S(T) = (< >), где

- относительная частота слова w в тексте T.

Введем обозначения:

),(

),(ln;ln

TwN

TwNyrx

j

iiii



nn xCxCxCCxP ...)( 2

210

min)...( 210

nni xCxCCyF

0)...(2

...

0)...(2

0)...(2

10

101

100

ninii

ni

n

niniii

ninii

xCxCCyxC

F

xCxCCyxC

F

xCxCCyC

F

Будем искать аппроксимирующую функцию в виде многочлена:

для этого необходимо минимизировать следующую функцию:

Вычислим частные производные этой функции и приравняем их к 0.



Получаем систему линейный уравнений, относительно С0,..,Cn:

ini

nnin

ni

ni

iininii

inini

yxxCxCxC

yxxCxCxC

yxCxCNC

*110

1210

10

...

....

...

...



rbpk

rkilnln

),(ln

min)ln( 2ii bxpyF

1

02

ln

ln

ln

Cb

Cp

yxxbxp

yxbpN

iiii

ii

Более точные значения оценок параметров могут быть получены для закона Ципфа. В этом случае, имеет место линейная зависимость логарифма относительной частоты слова от логарифма его ранга:

Используя метод наименьших квадратов, также можно найти значения коэффициентов для прямой:

k

rkiy ii

),(ln ii rx ln;

СТАТИСТИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ В МОДЕЛИ «РАНГ-ЧАСТОТА»

bvrpk

rkirf )(

),()(

0 0

1)()( drvrpdrrf b

0

111

)1(101

)()( b

bbb vbp

b

vp

b

vrpvrp

bb vrvbrf )()1()( 1

Получим статистический закон распределения слов по частоте:

Условие нормировки:

Вычислим интеграл и найдем нормировочное выражение:

Закон распределения слов по частоте можно записать в виде:

(1.3)

ПОЛУЧЕНИЕ СТАТИСТИЧЕСКОГО ЗАКОНА РАСПРЕДЕЛЕНИЯ СЛОВ В МОДЕЛИ «РАНГ-ЧАСТОТА» (1)

Вычислим математическое ожидание и дисперсию.

0 0

21

2

1

)2)(1()1()()(

bv

bb

vvbdrvrrpdrrrfpE

bbb

f

0 0

2122

)3)(2(

2

)1)(3)(2(

2)1()()(2

bb

v

bbbvbvrrpdrrfrpE bb

f

)3()2(

1

)2()3)(2(

2)(

22

2

222

2

bb

bv

b

v

bb

vEED ff

Вычислим начальный момент второго порядка:

Воспользуемся формулой для вычисления дисперсии:

.

ПОЛУЧЕНИЕ СТАТИСТИЧЕСКОГО ЗАКОНА РАСПРЕДЕЛЕНИЯ СЛОВ В МОДЕЛИ «РАНГ-ЧАСТОТА» (2)

2

1

bvE f )3()2(

12

2

bb

bvD f

1

13

2

2

EDE

Db )2( bEv

Математическое ожидание и дисперсия:;

Используя метод моментов, можно получить значения параметров статистического распределения (1.3). Из формул (1.4) имеем:

;

Здесь, E и D – математическое ожидание и дисперсия в генеральной совокупности.

(1.4)

ПОСТРОЕНИЕ ЯДРА ЕСТЕСТВЕННО-ЯЗЫКОВОГО ОПИСАНИЯ

Спецификация ЕЯ описания ПОРМ

Лексический состав Соотнесение с другими ЕЯ-описаниями

Выделение конкретной ПОРМ.Разделение ЕЯ-описания на подобласти.

Формирования корпуса текстов, релевантных изучаемой ПОРМ

Формирование ядра релевантных текстов

с использованием статистического критерия согласия для сравнения их количественных спецификаций

Критерии согласия (к-ты корреляции):

Пирсона (E.S.Pеаrsоn), Спирмена (C.Sреаrmаn), Кендалла (M.G.Kеndаll), дихотомический (в случае преобразования ранговых шкал), статистики для проверки значимости разностей пар, критерий согласия Вилкоксона

(F.Wilсохоn) и др.

ЛИТЕРАТУРА

Дж.Гласс, Дж.Стенли. Статистические методы в педагогике и психологии. Используемый материал: с. 142–165.

Л.Закс. Статистическое оценивание / Пер. с нем. В.Н.Варыгина. Под ред. Ю.П.Адлера, В.Г.Горского. М.: Статистика, 1976. – 600 с. Используемый материал: с. 286–287. В.Е. Гмурман. Теория вероятностей и математическая статистика. М.: Высшая школа, 1998.

ОПРЕДЕЛЕНИЕ ОДНОРОДНОСТИ ТЕКСТОВ ОПРЕДЕЛЕНИЕ ОДНОРОДНОСТИ ТЕКСТОВ (1)(1)

<корпус текстов G> <вербальная выборка = текст Ti>

АЛГОРИТМ ОПРЕДЕЛЕНИЯ ОДНОРОДНОСТИ ДВУХ ТЕКСТОВ(тексты – T1, Т2; частотные словники – S(T1), S(T2))

1. Построение упорядоченных множества слов:S1 = ( w11, w12, w13,...,w1N ), S2 = ( w21, w22, w23,...,w2M ).

2. Нумерация элементы множеств S1 и S2 :S1 = (1,2,3,4,5,6...N), S2 = (1,3,2,5,N,4, N+1,N+2,...).

3. Добавление относительной частоты встречаемости слов.

4. Объединение и упорядочение множеств S1 и S2.

5. Нумерация элементов объединенного множества.

6. Суммирование индексов элементов множества S1 (Wнабл).

ОПРЕДЕЛЕНИЕ ОДНОРОДНОСТИ ТЕКСТОВОПРЕДЕЛЕНИЕ ОДНОРОДНОСТИ ТЕКСТОВ (2)(2)

N > 25, M > 25

Wнижн. кр. Wнабл Wверхн. кр. , где

крнижнкрверхн WNMNW ... )1(

12

)1(

2

1)1(),,(.

MNNMz

NMNMNQW кркрнижн

2

21)(

QzФ кр

x

zdzexФ

0

22

2

1)(

Q – половина уровня доверия = /2;zкр находится по таблице функции Лапласа по равенству

,

ПОСТРОЕНИЕ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ НА ОСНОВЕ ЭТАЛОННОГО ТЕКСТА

TeT 7

T 1

T 2

T 3

T 6 T 4

T 5

Ýòàëîííûé òåêñò

ЗВЕЗДООБРАЗНАЯ ТОПОЛОГИЯ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ.

Способ предполагает наличие эталонного текста

Этапы построения ядра

1. Выбор эталонного текста.2. Проверка гипотезы об

однородности текстовTe L Ti.

3. Включение текста Ti в корпус текстов G.

ЛИНЕЙНАЯ СХЕМА ПОСТРОЕНИЯ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ

T 1 T 2 T 2 T 2

ЛИНЕЙНАЯ ТОПОЛОГИЯ

ЯДРА ЕЯ ОПИСАНИЯ ПОРМ

Эталонным текстом является текущий текст


1. Выбор текста Ti.2. Включение текста Ti в корпус текстов G.3. Выбор эталонного текста (Te = Ti или Te = Σ Ti )4. Выбор текста Ti+1.5. Проверка гипотезы об однородности текстов Te LTi+1.6. Включение текста Ti+1 в корпус текстов G.

ПОЛНОСВЯЗНАЯ СХЕМА ПОСТРОЕНИЯ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ

T 1 T 2

T 3T 4

ПОЛНОСВЯЗНАЯ СЕТЕВАЯ ТОПОЛОГИЯЯДРА ЕЯ ОПИСАНИЯ ПОРМ

Каждый текст Ti корпуса G является эталонным


1. Включение текстов Ti-1, Ti-2, Ti-3, … и т.д. в корпус G.

2. Выбор текста Ti.3. Выбор эталонных текстов:

Te1 = Ti-1, Te2 = Ti-2, Te3 = Ti-3, … и т.д.4. Проверка гипотезы об однородности текстов:

Te1LTi, Te2LTi, Te3LTi, … и т.д.5. Включение текста Ti в корпус текстов G.

ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ

Опишите модель текста «ранг-частота». Сформулируйте закон частот слов Ципфа. «Выведите» закон Ципфа. Напишите формулу Мандельброта для закона частот слов. Определите значения коэффициентов в формуле

Мандельброта. Получите (выведите) статистическое распределение «ранг-

частота». Перечислите методы построения ядра ЕЯ описания ПОРМ. Перечислите этапы построения ядра ЕЯ описания ПОРМ на

основе эталонного текста. Опишите линейную схему построения ядра ЕЯ описания

ПОРМ. Опишите полносвязную схему построения ядра ЕЯ

описания ПОРМ.

лекции 3 4 тема 1

Documents