лекции 3 4 тема 1

40
Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний — лекции 1-2. 1.2. Количественная спецификация ЕЯ систем — лекции 3-4, 8. 1.3. Логико-статистические методы извлечения знаний — лекция 5-7. ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ 1.4. Технология автоматизированного построения словаря-тезауруса. 1.5. Пример исследования ЕЯ ресурса.

Upload: noobie312

Post on 14-Aug-2015

109 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: лекции 3 4 тема 1

Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ

ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ1.1. Модели и методы представления и организации знаний —

лекции 1-2. 1.2. Количественная спецификация ЕЯ систем —

лекции 3-4, 8. 1.3. Логико-статистические методы извлечения знаний —

лекция 5-7.

ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ

1.4. Технология автоматизированного построения словаря-тезауруса.

1.5. Пример исследования ЕЯ ресурса.

Page 2: лекции 3 4 тема 1

Лекции 3-4.

КОЛИЧЕСТВЕННАЯ СПЕЦИФИКАЦИЯ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ СИСТЕМ

Статистический анализ ЕЯ описания. Модель «ранг-частота». Закон Ципфа. Формула Мандельброта. Статистическое распределение в

модели «ранг-частота». Построение ядра ЕЯ описания.

Page 3: лекции 3 4 тема 1

Литература

Материал лекции представлен в книге:

Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. /

Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, 2002.— книга в комплекте с CD ROM— С. 34–45.

Page 4: лекции 3 4 тема 1

СТАТИСТИЧЕСКИЙ АНАЛИЗ ЕСТЕСТВЕННО-ЯЗЫКОВОГО ОПИСАНИЯ

Лингвистическая статистика, лингвостатистика

— раздел языкознания, занимающийся исследованиями статистическими методами количественных закономерностей

в языке и речи.

Энциклопедия «Русский язык»

(1) в широком смысле — область применения статистических методов в языкознании (то есть опирающаяся на математическую статистику подсчетов и измерений при изучении языка и речи);

(2) в узком смысле — изучение некоторых математических проблем, связанных с лингвистическим материалом, главным образом с типами статистических распределений языковых единиц в тексте.

Page 5: лекции 3 4 тема 1

ПОНЯТИЯ ЛИНГВИСТИЧЕСКОЙ СТАТИСТИКИ

ТЕКСТ

последовательность лингвистических единиц: букв, морфем, словоформ, словосочетаний, предложений и др.количественные характеристики лингвистических форм:

употребительность, совместная встречаемость, законы распределения в тексте, их физические размеры.

ОСНОВНЫЕ ПОНЯТИЯ И КАТЕГОРИИ ЛИНГВОСТАТИСТИКИ:

генеральная совокупность, выборки, частоты и вероятности, вероятностные распределения и статистические оценки.

ВИДЫ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ: Тексты (корпусы текстов). Языковые единицы лингвистического уровня.

Page 6: лекции 3 4 тема 1

ТЕОРИЯ ЧАСТОТ СЛОВ

Предпосылки теории частот слов

А. Методологические (концептуальные) суждения о мире

Б. Эмпирические наблюдения

В. Измерения

Г. Практические приложения

Page 7: лекции 3 4 тема 1

МЕТОДОЛОГИЧЕСКИЕ ПРЕДПОСЫЛКИ ТЕОРИИ ЧАСТОТ СЛОВ

РЕАЛЬНЫЙ МИР (ПОРМ)

<ЗНАНИЯ СУБЪЕКТА О ПОРМ> <ЕЯ ОПИСАНИЕ>

МЕТАЗНАНИЕ

ЗНАНИЕ ОБ ОРГАНИЗАЦИИ ЯЗЫКОВЫХ ЕДИНИЦ (СИНТАГМ):

…, морфемы,

словоформы, словосочетания,

предложения, …,

тексты, …

Page 8: лекции 3 4 тема 1

ЭМПИРИЧЕСКИЕ НАБЛЮДЕНИЯТЕОРИИ ЧАСТОТ СЛОВ

Значительные количественные (номенклатурные) и комбинаторные ограничения на использование языковых единиц.

Существенная избыточность некоторых типов языковых единиц.

Сложная иерархическая структура синтагм. Последовательная во времени организация

языковых единиц.

Page 9: лекции 3 4 тема 1

ИЗМЕРЕНИЯТЕОРИИ ЧАСТОТ СЛОВ

Исследования произведений А.С.Пушкина:словоупотреблений – 545 000; разных слов – 21 000.

Исследования языковой деятельности школьников:корпус текстов(писем, сочинений, заданий и т.п.) – 100 000;

словоупотреблений – 6 000 000; разных словоформ – 25 000; разных слов – 2 500.

Исследования современных английских текстов:словоупотреблений – 250 000; разных словоформ в книжных текстах – 24

000, в разговорных – 10 000.

Исследования французской разговорной речи:50% словоупотреблений – это 37 слов, 75% – 120 слов, 90% – 887 слов; 95% словоупотреблений языка телефонных разговоров – 737 слов.

Page 10: лекции 3 4 тема 1

ПРАКТИЧЕСКИЕ ПРИЛОЖЕНИЯТЕОРИИ ЧАСТОТ СЛОВ

Криптография Стенографирование Полиграфия Редакционно-издательская подготовка рукописей Распознавание текстов (печатных и рукописных) Распознавание аудиовизуальной речи Автоматизированное создание баз данных Автоматический перевод Сжатие данных Информационный поиск Автоматическое индексирование и реферирование

Page 11: лекции 3 4 тема 1

МОДЕЛЬ «РАНГ-ЧАСТОТА»

Жан.-Батист Эступ (Jеаn Bарtistе Estоuр).

Джордж Кингсли Зипф (Gеоrgе Kingslеу Ziрf),

Page 12: лекции 3 4 тема 1

ОПРЕДЕЛЕНИЯ МОДЕЛИ «РАНГ-ЧАСТОТА»

<ТЕКСТ>

<ЧАСТОТНЫЙ СЛОВНИК>

Ранг r

Слово W(r)

Частота f(r)

1 W(1) f(1)

2 W(2) f(2)

r W(r) f(r)

Пример:

Ранг r

Слово W(r)

Частота f(r)

1 the 245

2 of 136

3 terms 98

4 to 81

5 a 65

6 and 61

7 in 55

8 we 52

... … …

Page 13: лекции 3 4 тема 1

ЗАКОН ЧАСТОТ СЛОВ ЦИПФА

i(k, r)/k = 0.1r-1 = 1/(10 r), (1.0)

где: i(k,r)/k – относительная частота слова в тексте,

k – общее число слов в тексте,

r – ранг слова, т.е. его порядковый номер в упорядоченном по убыванию частотной функции словнике.

Page 14: лекции 3 4 тема 1

ЛИТЕРАТУРА

Дж. Солтон. Динамические библиотечные информационные системы. М.: Наука, 1979.

Б.Мандельброт. Теория информации и психолингвистика: теория частот слов // Математические методы в социальных науках / Сб. статей под ред. П.Лазарсфельда и Н.Генри. М.: Прогресс, 1973. – С. 316–337.

Page 15: лекции 3 4 тема 1

«ВЫВОД»

ЗАКОНА ЧАСТОТ СЛОВ (1)

Текст — случайная последовательность символов (букв и пробелов). Пробелы обозначают границы между словами.

Обозначим:W(r) — слово; r — ранг слова; k — количество слов; i (r, k)/k — относительная частота слова; р (r) — вероятность слова; р0 — вероятность пробела; М — количество типов букв, М>1, (1 — ро)/М — вероятность буквы в тексте; m — количество букв в слове.

Это может быть записано как

p0exp{-m}, где

=log (M/(1-p0)) — положительная величина, зависящая от ро и М.

Вероятность слова, состоящего из m букв:

Page 16: лекции 3 4 тема 1

«ВЫВОД»

ЗАКОНА ЧАСТОТ СЛОВ (2)

Букв в слове

Типов слов

Пример:

пробел: _; буквы: a,b,c; M=3. Типов слов Вер-ть слова

0 1 _ 1 0.2500

1 M a,b,c 3 0.0625

2 M2 aa, ab, ac, ba, bb, bc, ca, cb, cc 9 0.0153

3 M3 aaa, aab, aac, aba, abb, abc,… 27 0.0038

Ранг 1 2 3 4 5 6 … 12 …

Частота ~ 62 ~ 62 ~ 62 ~ 15 ~ 15 ~ 15 … ~ 15 …

Вер-ть 0.0625 0.0625 0.0625 0.0153 0.0153 0.0153 … 0.0153 …

Зависимость между числом букв m и рангом слова r

Пример: объем текста 1000 символов; пробелов — ~ 250, {a,b,c} — ~ 62; {aa,…cc} — ~ 15; {aaa,…ccc} — ~ 3.

Page 17: лекции 3 4 тема 1

«ВЫВОД»

ЗАКОНА ЧАСТОТ СЛОВ (3)

Page 18: лекции 3 4 тема 1

«ВЫВОД»

ЗАКОНА ЧАСТОТ СЛОВ (4)

Зависимость между рангом и вероятностью: ступенчатая функция, которая постоянна,

когда r изменяется между двумя (Мm— 1)/(М — 1), соответствуя последовательным значениям т.

Если m велико, то:

r (Мm— 1)/(М — 1), r (Мm— 1)/(М — 1);

r(Мm— 1)/(М — 1),

или

Page 19: лекции 3 4 тема 1

«ВЫВОД»

ЗАКОНА ЧАСТОТ СЛОВ (5)

Вероятность слова из m букв

Где:

B = /log M ; =log (M/(1-p0)); Р = p0 (М—1):

Связь между вероятностью слова и его рангом почти идентична закону Ципфа

при значениях B = -1 и P = 0.1

Page 20: лекции 3 4 тема 1

ФОРМУЛА МАНДЕЛЬБРОТА

«Поведение» наиболее часто употребляющихся слов, а также редких, которые характеризуют «богатство словарного

состава» текста не соответствует закону Ципфа.

Формула Б.Мандельброта (Bеnоit Mаndеlbrоt)

i(k,r) = рk (r+v)-b, где: b, k, v – const (1.1)

0

0,02

0,04

0,06

0,08

0,1

0,12

0 5 10 15 20 25 30 35

КриваяМандельброта

КриваяЦипфа

Page 21: лекции 3 4 тема 1

ПАРАМЕТРЫ ФОРМУЛЫ МАНДЕЛЬБРОТА

Page 22: лекции 3 4 тема 1

ОЦЕНКА ПАРАМЕТРОВ

ФОРМУЛЫ МАНДЕЛЬБРОТА (1)

Получим выражения для приближенной оценки параметров в формуле Мандельброта

Для этого выполним следующие преобразования:

где: – относительная частота встречаемости слова.

Таким образом, имеем:

где: (1.2)

;)(),( bvrkprki ,)ln(ln),(

ln ln vebpk

rki r

k

rki ),(

,)ln()( vebPxf x

rxpPk

rkixf ln;ln;

),()(

Page 23: лекции 3 4 тема 1

ОЦЕНКА ПАРАМЕТРОВ

ФОРМУЛЫ МАНДЕЛЬБРОТА (2)

Представим формулу (1.2) в виде степенного многочлена Тейлора:

)(!

)0(...

!2

)0(

!1

)0()0()( 1

)(2

n

nn

n Ton

xfxfxffxT

....

)()(

)()(

)ln()(

2ve

vebxf

ve

ebxf

vebPxf

x

x

x

x

x

Page 24: лекции 3 4 тема 1

ОЦЕНКА ПАРАМЕТРОВ

ФОРМУЛЫ МАНДЕЛЬБРОТА (3)

Если коэффициенты в многочлене Тейлора обозначить через С0,C1,...,Cn, то будем иметь:

...

)1(2

1

1

)1ln(

)(...)(

2

1

0

12

210

v

vbC

vbC

vbPC

ToxCxCxCCxf nn

n

Page 25: лекции 3 4 тема 1

ОЦЕНКА ПАРАМЕТРОВ

ФОРМУЛЫ МАНДЕЛЬБРОТА (4)

Откуда имеем приближенные выражения для параметров через коэффициенты

)1(0

1

2

1

0

)1(

)1(

2

2

vb

C

e

epvbCP

vCb

CC

v

Page 26: лекции 3 4 тема 1

ОЦЕНКА ПАРАМЕТРОВ

ФОРМУЛЫ МАНДЕЛЬБРОТА (5)

Получим коэффициенты степенного ряда методом наименьших квадратов по имеющимся значениям частотной функции.

Имеем S(T) = (<w, N(w,T)>).

)),(

),(ln(,ln

TwN

TwNr

),(

),(

TwN

TwN

S(T) = (< >), где

- относительная частота слова w в тексте T.

Введем обозначения:

),(

),(ln;ln

TwN

TwNyrx

j

iiii

Page 27: лекции 3 4 тема 1

ОЦЕНКА ПАРАМЕТРОВ

ФОРМУЛЫ МАНДЕЛЬБРОТА (6)

nn xCxCxCCxP ...)( 2

210

min)...( 210

nni xCxCCyF

0)...(2

...

0)...(2

0)...(2

10

101

100

ninii

ni

n

niniii

ninii

xCxCCyxC

F

xCxCCyxC

F

xCxCCyC

F

Будем искать аппроксимирующую функцию в виде многочлена:

для этого необходимо минимизировать следующую функцию:

Вычислим частные производные этой функции и приравняем их к 0.

Page 28: лекции 3 4 тема 1

ОЦЕНКА ПАРАМЕТРОВ

ФОРМУЛЫ МАНДЕЛЬБРОТА (7)

Получаем систему линейный уравнений, относительно С0,..,Cn:

ini

nnin

ni

ni

iininii

inini

yxxCxCxC

yxxCxCxC

yxCxCNC

*110

1210

10

...

....

...

...

Page 29: лекции 3 4 тема 1

ОЦЕНКА ПАРАМЕТРОВ

ФОРМУЛЫ МАНДЕЛЬБРОТА (8)

rbpk

rkilnln

),(ln

min)ln( 2ii bxpyF

1

02

ln

ln

ln

Cb

Cp

yxxbxp

yxbpN

iiii

ii

Более точные значения оценок параметров могут быть получены для закона Ципфа. В этом случае, имеет место линейная зависимость логарифма относительной частоты слова от логарифма его ранга:

Используя метод наименьших квадратов, также можно найти значения коэффициентов для прямой:

k

rkiy ii

),(ln ii rx ln;

Page 30: лекции 3 4 тема 1

СТАТИСТИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ В МОДЕЛИ «РАНГ-ЧАСТОТА»

bvrpk

rkirf )(

),()(

0 0

1)()( drvrpdrrf b

0

111

)1(101

)()( b

bbb vbp

b

vp

b

vrpvrp

bb vrvbrf )()1()( 1

Получим статистический закон распределения слов по частоте:

Условие нормировки:

Вычислим интеграл и найдем нормировочное выражение:

Закон распределения слов по частоте можно записать в виде:

(1.3)

Page 31: лекции 3 4 тема 1

ПОЛУЧЕНИЕ СТАТИСТИЧЕСКОГО ЗАКОНА РАСПРЕДЕЛЕНИЯ СЛОВ В МОДЕЛИ «РАНГ-ЧАСТОТА» (1)

Вычислим математическое ожидание и дисперсию.

0 0

21

2

1

)2)(1()1()()(

bv

bb

vvbdrvrrpdrrrfpE

bbb

f

0 0

2122

)3)(2(

2

)1)(3)(2(

2)1()()(2

bb

v

bbbvbvrrpdrrfrpE bb

f

)3()2(

1

)2()3)(2(

2)(

22

2

222

2

bb

bv

b

v

bb

vEED ff

Вычислим начальный момент второго порядка:

Воспользуемся формулой для вычисления дисперсии:

.

Page 32: лекции 3 4 тема 1

ПОЛУЧЕНИЕ СТАТИСТИЧЕСКОГО ЗАКОНА РАСПРЕДЕЛЕНИЯ СЛОВ В МОДЕЛИ «РАНГ-ЧАСТОТА» (2)

2

1

bvE f )3()2(

12

2

bb

bvD f

1

13

2

2

EDE

Db )2( bEv

Математическое ожидание и дисперсия:;

Используя метод моментов, можно получить значения параметров статистического распределения (1.3). Из формул (1.4) имеем:

;

Здесь, E и D – математическое ожидание и дисперсия в генеральной совокупности.

(1.4)

Page 33: лекции 3 4 тема 1

ПОСТРОЕНИЕ ЯДРА ЕСТЕСТВЕННО-ЯЗЫКОВОГО ОПИСАНИЯ

Спецификация ЕЯ описания ПОРМ

Лексический состав Соотнесение с другими ЕЯ-описаниями

Выделение конкретной ПОРМ.Разделение ЕЯ-описания на подобласти.

Формирования корпуса текстов, релевантных изучаемой ПОРМ

Формирование ядра релевантных текстов

с использованием статистического критерия согласия для сравнения их количественных спецификаций

Критерии согласия (к-ты корреляции):

Пирсона (E.S.Pеаrsоn), Спирмена (C.Sреаrmаn), Кендалла (M.G.Kеndаll), дихотомический (в случае преобразования ранговых шкал), статистики для проверки значимости разностей пар, критерий согласия Вилкоксона

(F.Wilсохоn) и др.

Page 34: лекции 3 4 тема 1

ЛИТЕРАТУРА

Дж.Гласс, Дж.Стенли. Статистические методы в педагогике и психологии. Используемый материал: с. 142–165.

Л.Закс. Статистическое оценивание / Пер. с нем. В.Н.Варыгина. Под ред. Ю.П.Адлера, В.Г.Горского. М.: Статистика, 1976. – 600 с. Используемый материал: с. 286–287. В.Е. Гмурман. Теория вероятностей и математическая статистика. М.: Высшая школа, 1998.

Page 35: лекции 3 4 тема 1

ОПРЕДЕЛЕНИЕ ОДНОРОДНОСТИ ТЕКСТОВ ОПРЕДЕЛЕНИЕ ОДНОРОДНОСТИ ТЕКСТОВ (1)(1)

<корпус текстов G> <вербальная выборка = текст Ti>

АЛГОРИТМ ОПРЕДЕЛЕНИЯ ОДНОРОДНОСТИ ДВУХ ТЕКСТОВ(тексты – T1, Т2; частотные словники – S(T1), S(T2))

1. Построение упорядоченных множества слов:S1 = ( w11, w12, w13,...,w1N ), S2 = ( w21, w22, w23,...,w2M ).

2. Нумерация элементы множеств S1 и S2 :S1 = (1,2,3,4,5,6...N), S2 = (1,3,2,5,N,4, N+1,N+2,...).

3. Добавление относительной частоты встречаемости слов.

4. Объединение и упорядочение множеств S1 и S2.

5. Нумерация элементов объединенного множества.

6. Суммирование индексов элементов множества S1 (Wнабл).

Page 36: лекции 3 4 тема 1

ОПРЕДЕЛЕНИЕ ОДНОРОДНОСТИ ТЕКСТОВОПРЕДЕЛЕНИЕ ОДНОРОДНОСТИ ТЕКСТОВ (2)(2)

N > 25, M > 25

Wнижн. кр. Wнабл Wверхн. кр. , где

крнижнкрверхн WNMNW ... )1(

12

)1(

2

1)1(),,(.

MNNMz

NMNMNQW кркрнижн

2

21)(

QzФ кр

x

zdzexФ

0

22

2

1)(

Q – половина уровня доверия = /2;zкр находится по таблице функции Лапласа по равенству

,

Page 37: лекции 3 4 тема 1

ПОСТРОЕНИЕ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ НА ОСНОВЕ ЭТАЛОННОГО ТЕКСТА

TeT 7

T 1

T 2

T 3

T 6 T 4

T 5

Ýòàëîííûé òåêñò

ЗВЕЗДООБРАЗНАЯ ТОПОЛОГИЯ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ.

Способ предполагает наличие эталонного текста

Этапы построения ядра

1. Выбор эталонного текста.2. Проверка гипотезы об

однородности текстовTe L Ti.

3. Включение текста Ti в корпус текстов G.

Page 38: лекции 3 4 тема 1

ЛИНЕЙНАЯ СХЕМА ПОСТРОЕНИЯ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ

T 1 T 2 T 2 T 2

ЛИНЕЙНАЯ ТОПОЛОГИЯ

ЯДРА ЕЯ ОПИСАНИЯ ПОРМ

Эталонным текстом является текущий текст

Этапы построения ядра

1. Выбор текста Ti.2. Включение текста Ti в корпус текстов G.3. Выбор эталонного текста (Te = Ti или Te = Σ Ti )4. Выбор текста Ti+1.5. Проверка гипотезы об однородности текстов Te LTi+1.6. Включение текста Ti+1 в корпус текстов G.

Page 39: лекции 3 4 тема 1

ПОЛНОСВЯЗНАЯ СХЕМА ПОСТРОЕНИЯ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ

T 1 T 2

T 3T 4

ПОЛНОСВЯЗНАЯ СЕТЕВАЯ ТОПОЛОГИЯЯДРА ЕЯ ОПИСАНИЯ ПОРМ

Каждый текст Ti корпуса G является эталонным

Этапы построения ядра

1. Включение текстов Ti-1, Ti-2, Ti-3, … и т.д. в корпус G.

2. Выбор текста Ti.3. Выбор эталонных текстов:

Te1 = Ti-1, Te2 = Ti-2, Te3 = Ti-3, … и т.д.4. Проверка гипотезы об однородности текстов:

Te1LTi, Te2LTi, Te3LTi, … и т.д.5. Включение текста Ti в корпус текстов G.

Page 40: лекции 3 4 тема 1

ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ

Опишите модель текста «ранг-частота». Сформулируйте закон частот слов Ципфа. «Выведите» закон Ципфа. Напишите формулу Мандельброта для закона частот слов. Определите значения коэффициентов в формуле

Мандельброта. Получите (выведите) статистическое распределение «ранг-

частота». Перечислите методы построения ядра ЕЯ описания ПОРМ. Перечислите этапы построения ядра ЕЯ описания ПОРМ на

основе эталонного текста. Опишите линейную схему построения ядра ЕЯ описания

ПОРМ. Опишите полносвязную схему построения ядра ЕЯ

описания ПОРМ.