Как мы побеждаем вьетнамскую лингвистику

18
16.02.12 Как мы побеждаем вьетнамскую лингвистику WADA.vn: ПЕРВЫЕ ШАГИ НАЦИОНАЛЬНОГО ПОИСКОВИКА

Upload: chavez

Post on 19-Mar-2016

63 views

Category:

Documents


0 download

DESCRIPTION

Как мы побеждаем вьетнамскую лингвистику. WADA.vn : ПЕРВЫЕ ШАГИ НАЦИОНАЛЬНОГО ПОИСКОВИКА . WADA.vn b. Бета - версия запущена в октябре 2011. Боевая версия — в год золотого дракона :) Весь «Вьетнет»: зона .vn , + вьетнамоязычные сайты в других зонах , + про Вьетнам - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Как мы  побеждаем  вьетнамскую лингвистику

16.02.12

Как мы побеждаем вьетнамскую лингвистикуWADA.vn: ПЕРВЫЕ ШАГИ НАЦИОНАЛЬНОГО ПОИСКОВИКА

Page 2: Как мы  побеждаем  вьетнамскую лингвистику

16.02.12

2

WADA.vn

Бета-версия запущена в октябре 2011.Боевая версия — в год золотого дракона :)

Весь «Вьетнет»: зона .vn, + вьетнамоязычные сайты в других зонах, + про Вьетнам

200 тысяч сайтов, 350 млн документов, 36 Тб

Один конкурент (но очень большой) + Itim.vn (Нигма) – пока не опубликован+ кладбище вьетнамских поисковиков

Весной Google искал очень плохо.Мы лучше, чем он тогда, но пока хуже, чем он сейчас

Page 3: Как мы  побеждаем  вьетнамскую лингвистику

16.02.12

3

Вьетнамский язык: графика

Латинский алфавит:создан в XVII веке о. Александром де Род (Alexandre de Rhodes, вьет. A-Lịch-Sơn Đắc-Lộ);

до того были иероглифы

Жесткая структура слога: truyền (tr-u-yề-n)используется системой ввода Telex

6 тонов: a à ả ã á ạ

«Двуслойная» диакритика: ặ ễ ử

Page 4: Как мы  побеждаем  вьетнамскую лингвистику

16.02.12

4

Кодировка и нормализация

К счастью, почти только UTF-8

Может собираться по частям: ẩ = â + ’ = a + ^ + ’

Место тона – жесткие правила, + кое-где «старый» и «новый» стиль hủy / huỷ

Орфографическая вариативность: bác sĩ / bác sỹ

Page 5: Как мы  побеждаем  вьетнамскую лингвистику

16.02.12

5

Восстановление диакритики

Бывают запросы без тонов (текстов без тонов мало)

Веб-мастера даже добавляют ключевые слова без тонов (иногда прямо в <title>):Recruitment - tuyen dung - tuyển dụng- viec lam, việc làm lao dong, lao động việt nam

Запросы без тонов предварительно восстанавливаются; искать «пониженные» варианты мало смысла

Восстановление тонов – статистика с небольшой примесью словарей

Проблемы в основном на стыке с английским: ấn độ

Page 6: Как мы  побеждаем  вьетнамскую лингвистику

16.02.12

6

Ошибки восстановления диакритики

Page 7: Как мы  побеждаем  вьетнамскую лингвистику

16.02.12

7

Вьетнамский язык: слоговой

~ 8000 слогов, из них ~ 3000 только в составных словах

Огромная омонимия

Большинство слов составные

Вместо проблемы отождествления слов – проблема деления на слова

«Развалившиеся» слова – провал поиска

Пока выделяем слова в запросах

Page 8: Как мы  побеждаем  вьетнамскую лингвистику

16.02.12

8

Немного примеров

Словарик

nhà – домmáy – механизм, машинаxe – повозка, транспортnước – вода, странаđất – земля trà – чай lá – лист(ья) thuốc – яд, лекарство

mua – покупать bán – продаватьbay – летатьhút – вдыхатьôm – обнимать

Что это значит?

lá trà – ?trà lá – ?nước trà – ?nhà trà – ?máy bay – ?nhà máy – ?nhà thuốc – ?nhà nước – ?đất nước – ?mua bán – ?bán nước – ?xe máy – ?xe ôm – ?hút thuốc – ?

Page 9: Как мы  побеждаем  вьетнамскую лингвистику

16.02.12

9

Еще примеры...

Словарик

máy – механизм, машинаxe – повозка, транспортthuốc – яд, лекарство

ôm – обниматьhút – вдыхать

Что это значит?

xe máy – мотоцикл, устар. велосипед

xe ôm – см. фотоhút thuốc – ?

Page 10: Как мы  побеждаем  вьетнамскую лингвистику

16.02.12

10

И еще...

Словарик

thuốc – яд, лекарствоhút – вдыхать

Что это значит?

hút thuốc – см. фото

Page 11: Как мы  побеждаем  вьетнамскую лингвистику

16.02.12

11

Конфликты

nước trà – чайbán nước – предатель (Родины)bán nước trà – ?

Слова могут вкладываться и пересекаться

Если в словаре есть АВ и ВС, а в тексте АВС, то, скорее всего, в этом тексте нет хотя бы одного из слов АВ и ВС

Page 12: Как мы  побеждаем  вьетнамскую лингвистику

16.02.12

12

Разрешение конфликтов

Вложенияcông tác / đổ bê tông

Максимальное покрытие1000 / năm / thăng long / hà nội

«Связанные» слоги long

«Слабые» словаbán nước

«Префиксы» и «суффиксы»121 / năm / (ngày (sinh nhật)) / hồ chí minh

Page 13: Как мы  побеждаем  вьетнамскую лингвистику

16.02.12

13

Синонимия

Сокращения thành phố Hồ Chí Minh = TP Hồ Chí Minh = TP.HCM сông ty cổ phần = сông ty cp = ctcp = cty cp = ct cp = cty cổ phần

Орфографические варианты

«Переводы» Sài Gòn = Saigon TP.HCM = HCMC

Заимствования

Page 14: Как мы  побеждаем  вьетнамскую лингвистику

16.02.12

14

Заимствования: большая вариативность

Mát-xcơ-va Mat-xcơ-va Mátxcơva Matxcơva Matxcova Mat-xờ-cơ-va Mát-xờ-cơ-va Mat-x-cơ-va Mát-x-cơ-va Matxcva Mát-scơ-va Mátcơva

Moskva Moscova Mạc Tư Khoa Moscow Moscou

Page 15: Как мы  побеждаем  вьетнамскую лингвистику

16.02.12

15

Словари

Составные слова Коллокации («выражения»)

máy tính điện tử - электронно-вычислительная машина «Префиксные» и «постфиксные выражения»

chim gà lôi – фазан, cây tre – бамбук, con cá – рыба(con cá sấu – крокодил)

Стоп-слова «Префиксы» и «постфиксы» (в основном грамматика):

cái, các (ô tô) Связанные слоги Словарь разрешения конфликтов

bãi đậu xe buýt = [bãi đậu {xe}] [xe buýt] Словари синонимов (заимствования, сокращения, ...) Словари преобразования запросов ...и др.

Page 16: Как мы  побеждаем  вьетнамскую лингвистику

16.02.12

16

Источники словарей

Толковый словарь VietLex (44000 слов)

Вьетнамско-английские словари (70 тыс. слов, 126 тыс. слов)

Специальные словари, словарь новых слов

География, имена (из разных источников)

Википедия

Статистика устойчивости словосочетаний

Разбор конфликтов, ...

Page 17: Как мы  побеждаем  вьетнамскую лингвистику

16.02.12

17

Что еще

Исправление опечаток

«Префиксы» и «суффиксы» запросов:cách sử dụng ... – способы использования... nghĩa là gì – что означает

Деление доменных имен на слова (с повышением тонов):http://thutuchanhchinh.vn = Thủ tục hành chính.vn

Отбор навигационных запросов

Варианты навигационных запросов

...и др.

Page 18: Как мы  побеждаем  вьетнамскую лингвистику

16.02.12

СПАСИБО! Михаил ВоловичРуководитель лингвистического отдела[email protected]

Вьетнамский поиск (beta)www.wada.vn

Информация о компании, услугах и технологияхwww.ashmanov.com

Анализаторы качества поискаwww.analyzethis.ru