Объектная модель многофункциональных словарей

27
Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.

Upload: -

Post on 22-May-2015

348 views

Category:

Documents


2 download

DESCRIPTION

Носков Алексей 25 ноября 2008

TRANSCRIPT

Page 1: Объектная модель многофункциональных словарей

Объектная модель многофункциональных словарей

Докладчик: Носков А. А.Группа: 525

Научный руководитель: Большакова Е. И.

Page 2: Объектная модель многофункциональных словарей

2

Рассматриваемая работа

«Объектная модель многофункциональных словарей, основанная на синтезе лингвистических единиц»

Ивличева О. О., Епифанов М.Е., Лахути Д.Г.

Попытка выработать универсальный метод организации данных для электронных словарей

Page 3: Объектная модель многофункциональных словарей

3

Лингвистические единицы

Морфема, лексема, словоформа... Простая/составная: морфема/словоформа Многоуровневая иерархия

Синтаксические конструкции образованы из словоформ, словоформы из основы и флексий

Составная л.е. - результат некоторой операции над единицами нижнего уровня Словоформа может быть получена как

конкатенация ее составляющих

Page 4: Объектная модель многофункциональных словарей

4

Свойства лингвистических единиц

С единицами ассоциированы некоторые свойства Внутренние/наследуемые (для составных частей)

Словосочетание «большой корабль» наследует свойства рода, одушевленности и т.п. от «корабль»

Можно считать, что словоформа наследует свой падеж от окончания

Со значением некоторых свойств связано «поведение», в частности, правила построения новых единиц Род, число определяют согласование

Page 5: Объектная модель многофункциональных словарей

5

Текст-объект

В словаре конкретные лингвистические единицы представляются в виде текст-объектов

Основы: «вершин», «дорог» Окончания: «а», «и», «ы»...

Текст-объект — цепочка символов + конечное множество свойств

Page 6: Объектная модель многофункциональных словарей

6

Свойства текст-объекта

Свойство — тройка p=<d,n,v>, где d — тип свойства n — имя свойства v — значение свойства

У одного текст-объекта не может быть свойств с одинаковым именем

Примеры свойств Падеж, число, одушевленность и прочие

грамматические признаки Семантическое значение суффикса

Page 7: Объектная модель многофункциональных словарей

7

Аддитивные и внутренние свойства

Свойства делятся на аддитивные и внутренние Аддитивные — свойства, которые наследуются

более сложными конструкциями Род, число, одушевленность

Внутренние — свойства, которые не наследуются Тип единицы Часть речи

Множества имен аддитивных и внутренних свойств не пересекаются

Текст-объект - тройка <t,AData,IData> (строка, аддитивные свойства, внутренние свойства)

Page 8: Объектная модель многофункциональных словарей

8

Соединение текст-объектов

Используется для образования составных текст-объектов из более простых

Текст-объекты соединимы, если все их аддитивные свойства могут быть успешно соединены

<«вершин»,{одуш:неод}, >∅ соединима с <«ы»,{одуш:неод,число:ед,пад:вин}, >∅ но не соединима с <«»,{одуш:од,число:ед,пад:вин}, >∅

Page 9: Объектная модель многофункциональных словарей

9

Соединение свойств

Для каждого типа свойства определяется специальный оператор соединения свойств простых текст-объектов (пары объектов) в свойства составного текст-объекта

Тип «согласуемое свойство» переносит в новый текст-объект свойства, только если e1 и e2 не содержат одноименных свойств с различными значениями

Page 10: Объектная модель многофункциональных словарей

10

R-объекты

R-объекты — собственно элементы структуры словаря.

Могут быть четырех типов: SimpleText, Property, Union, Join

Каждый R-объект e описывает какое-то множество текст-объектов

Есть R-объекты, представляющие Конкретные основы и флексии Множества возможных основ, флексий Множества допустимых словоформ Множества допустимых словосочетаний

Page 11: Объектная модель многофункциональных словарей

11

R-объекты: SimpleText

ST[text,adata,idata] — R-объект, соответствующий одному текст-объекту

Ими представляются основы и флексии ST[«вершин»,{одуш:неодуш}, ]∅ ST[«а»,{род:жен,числ:ед,пад:им}, ]∅ ST[«ы»,{одуш:неодуш,числ:мн,пад:вин}, ]∅ ST[«»,{одуш:одуш,числ:мн,пад:вин}, ]∅

Property эквивалентен SimpleText без поля text

Page 12: Объектная модель многофункциональных словарей

12

R-объекты: Union

Union — составной R-объект, который используется для объединения множеств, описываемых дочерними R-объектами

Например, объект, объединяющий окончания в множество (таблицу флексий)

UST[ text = «а», adata = { падеж: имен, число: ед } ]

ST[ text = «ы», adata = { падеж: имен, число: множ } ]

ST[ text = «е», adata = { падеж: дат, число: ед } ]

Объект Union

Page 13: Объектная модель многофункциональных словарей

13

R-объекты: Join

Для представления множеств составных единиц используется объект Join

Join представляет множество соединений всех пар дочерних объектов

Им представляются множества словоформ, словосочетаний

J[ adata = {род: жен} ]

ST[ «дорог» ]

Таблица флексий

Page 14: Объектная модель многофункциональных словарей

14

Построение словаря из R-объектов

R-объекты организованы в иерархию Листьями в иерархии являются

минимальные единицы: морфы, представленные SimpleText

Составными элементами являются Union и Join, ссылающиеся на другие R-объекты

При применении Join к основе и множеству Union окончаний, основа «склеивается» с каждым окончанием

Page 15: Объектная модель многофункциональных словарей

15

Пример фрагмента словаря

J

U

ST[ text = «а», adata = { падеж: имен, число: ед } ]

ST[ text = «ы», adata = { падеж: имен, число: множ } ]

ST[ text = «е», adata = { падеж: дат, число: ед } ]

ST[ text = «вершин»]

Структура, описывающая слова «вершина», «вершины» и «вершине»

Page 16: Объектная модель многофункциональных словарей

16

Недопустимые единицы

Соединение может отвергать некоторые единицы, получаемые в результате синтеза как неправильные.

Такие единицы состоят из несоединяемых объектов и не входят в результирующее множество.

Простейший пример: конфликт значений свойств.

Page 17: Объектная модель многофункциональных словарей

17

Пример недопустимых единиц

J

U

ST[ «а», adata = { падеж: имен } ]

ST[ «ы», adata = { падеж: вин, одуш: неодуш } ]

ST[ «», adata = { падеж: вин, одуш: одуш } ]

ST[ «вершин», adata = { одуш: неодуш } ]

Конфликт свойства одушевленности, «вершин» - недопустимая форма!

Page 18: Объектная модель многофункциональных словарей

18

Представление словосочетаний

J J[ adata = {род: жен} ]

J

ST[ text = «дорог» ]

ST[ text = «железн» ]

Таблица флексий

Табл. флексий, муж. род, мн. числ

Табл. флексий, жен. род, ед. числ

Табл. флексий, жен. род, мн. числ

Табл. флексий, муж. род, ед. числ

U

Page 19: Объектная модель многофункциональных словарей

19

Расширяемость словаря

Предложенный подход позволяет легко расширять словарь «В ширину» - добавление новых данных в

существующей схеме. Добавление новых основ и флексий.

«В глубину» - добавление качественно новой информации. Добавление семантической информации.

Page 20: Объектная модель многофункциональных словарей

20

Расширяемость словаря

J

Поддереводля таблицы

флексий

ST[ text = «верш», {одуш:неодуш} ]

Page 21: Объектная модель многофункциональных словарей

21

Расширяемость словаря

J

J[ {одуш:неодуш} ]

ST[ «верш» ]

ST[ «ин» ]

Поддереводля таблицы

флексий

ST[ text = «верш», {одуш:неодуш} ]

Разделяем основу на корень и суффикс

Page 22: Объектная модель многофункциональных словарей

22

Расширяемость словаря

J

J[ {одуш:неодуш} ]

ST[ «верш» ]

ST[ «ин» ]

Поддереводля таблицы

флексий

Page 23: Объектная модель многофункциональных словарей

23

Расширяемость словаря

J

J[ {одуш:неодуш} ]

ST[ «верш» ]

ST[ «ин» ]

Поддереводля таблицы

флексий

Добавляем семантическуюинформацию для суффикса

J[ { толкование: «значение ИН4 по словарю Т. Ф. Ефремовой» } ]

Page 24: Объектная модель многофункциональных словарей

24

Расширяемость словаря

J

J[ {одуш:неодуш} ]

ST[ «верш» ]

ST[ «ин» ]

Поддереводля таблицы

флексий

J[ { толкование: «значение ИН4 по словарю Т. Ф. Ефремовой» } ]

Page 25: Объектная модель многофункциональных словарей

25

Реализация словаря

Модель реализована на основе некоторой объектной библиотеки

Каждый R-объект является объектом в смысле программном смысле, он инкапсулирует: Свойства R-объектов Методы запроса множества текст-объектов,

возможно, с заданными ограничениями

Page 26: Объектная модель многофункциональных словарей

26

Плюсы и минусы подхода

Достаточно простой и мощный подход

Унифицированное представление для различных задач

Расширяемость «в ширину» и «в глубину»

Возможность использования как модели для анализа

Высокая вычислительная сложность при запросе элементов узла

Кое-где модель неоправданно усложнена

Опасность роста сложности модели при росте ее объема

Page 27: Объектная модель многофункциональных словарей

27

?