Информационно-аналитическая система "Лавина"...

11
[Введите текст] [Введите текст] [Введите текст] 127521 г. Москва, ул. Октябрьская, д. 72 тел./факс: (495) 645-4455 www.poisk-it.ru Информационно-аналитическая система "Лавина" Комплексная обработка больших массивов текстовой и аудиовизуальной информации

Upload: mikhail-lomonosov

Post on 26-Jun-2015

1.266 views

Category:

Documents


13 download

DESCRIPTION

ЗАО Научно-технический центр "ПОИСК-ИТ" входит в состав группы компаний Инлайн Технолоджис, являющейся одной из крупнейших на российском рынке ин-формационных технологий. НТЦ "ПОИСК-ИТ" специализируется на разработке ком-плексных информационно-аналитических систем на основе как собственных техноло-гий, так и решений ведущих мировых компаний-партнеров. ПОИСК-ИТ имеет успеш-ный многолетний опыт работы в области речевых технологий, технологий интеллек-туальной обработки текстов, систем моделирования и поддержки принятия решений. Основными заказчиками и пользователями системы "Лавина" являются орга-ны государственной власти различных уровней и крупные коммерческие организации, среди которых: Министерство обороны РФ; Федеральное агентство по рыболовству; Центральная избирательная комиссия РФ; Федеральная служба безопасности; Национальный антитеррористический комитет; Министерство иностранных дел; Федеральная служба охраны.

TRANSCRIPT

Page 1: Информационно-аналитическая система "Лавина" Комплексная обработка больших массивов текстовой и

[Введите текст] [Введите текст] [Введите текст]

127521 г. Москва, ул. Октябрьская, д. 72 ∙ тел./факс: (495) 645-4455 ∙ www.poisk-it.ru

Информационно-аналитическая

система "Лавина"

Комплексная обработка больших массивов

текстовой и аудиовизуальной информации

Page 2: Информационно-аналитическая система "Лавина" Комплексная обработка больших массивов текстовой и

ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СИСТЕМА "ЛАВИНА"

ЗАО НТЦ "ПОИСК-ИТ" 2

Аннотация

В настоящем документе представлено описание информационно-аналитической

системы (ИАС) "Лавина", разработанной ЗАО Научно-технический центр "ПОИСК-ИТ".

Контактные данные

ЗАО Научно-технический центр «ПОИСК-ИТ»

127521, Москва, ул. Октябрьская, д. 72

Макаренко Дмитрий Игоревич

к.э.н. Директор по научно-техническому развитию

тел.: +7 (495) 645-44-55 доб. 6539

моб.: +7 (926) 203-56-10

e-mail: [email protected]

Page 3: Информационно-аналитическая система "Лавина" Комплексная обработка больших массивов текстовой и

ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СИСТЕМА "ЛАВИНА"

ЗАО НТЦ "ПОИСК-ИТ" 3

Содержание

1. О КОМПАНИИ ..................................................................................................................... 4

2. НАЗНАЧЕНИЕ СИСТЕМЫ ...................................................................................................... 5

3. ОПИСАНИЕ РАБОТЫ СИСТЕМЫ И ОСНОВНЫЕ ФУНКЦИИ .......................................................... 6

4. АРХИТЕКТУРА СИСТЕМЫ ................................................................................................... 11

Page 4: Информационно-аналитическая система "Лавина" Комплексная обработка больших массивов текстовой и

ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СИСТЕМА "ЛАВИНА"

ЗАО НТЦ "ПОИСК-ИТ" 4

1. О компании

ЗАО Научно-технический центр "ПОИСК-ИТ" входит в состав группы компаний

Инлайн Технолоджис, являющейся одной из крупнейших на российском рынке ин-

формационных технологий. НТЦ "ПОИСК-ИТ" специализируется на разработке ком-

плексных информационно-аналитических систем на основе как собственных техноло-

гий, так и решений ведущих мировых компаний-партнеров. ПОИСК-ИТ имеет успеш-

ный многолетний опыт работы в области речевых технологий, технологий интеллек-

туальной обработки текстов, систем моделирования и поддержки принятия решений.

Основными заказчиками и пользователями системы "Лавина" являются орга-

ны государственной власти различных уровней и крупные коммерческие организации,

среди которых:

Министерство обороны РФ;

Федеральное агентство по рыболовству;

Центральная избирательная комиссия РФ;

Федеральная служба безопасности;

Национальный антитеррористический комитет;

Министерство иностранных дел;

Федеральная служба охраны.

Page 5: Информационно-аналитическая система "Лавина" Комплексная обработка больших массивов текстовой и

ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СИСТЕМА "ЛАВИНА"

ЗАО НТЦ "ПОИСК-ИТ" 5

2. Назначение системы

Информационно-аналитическая система (ИАС) "Лавина" предназначена для

сбора, обработки и консолидации разнородной неструктурированной информации –

текстовой и аудиовизуальной – из внутренних и внешних источников (базы данных,

интернет, файловые системы, корпоративные информационные системы, телевизи-

онный и радио эфир и др.) и ее автоматической аналитической обработки в режиме,

близком к реальному времени.

Применение ИАС "Лавина" позволяет

оперативно отслеживать появление новых информационных поводов;

осуществлять непрерывный мониторинг и анализ развития различных ситуа-ций;

оценивать "информационный портрет" персоны, организации, бренда и пр. в СМИ и социальных медиа;

прогнозировать развитие ситуаций.

Page 6: Информационно-аналитическая система "Лавина" Комплексная обработка больших массивов текстовой и

ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СИСТЕМА "ЛАВИНА"

ЗАО НТЦ "ПОИСК-ИТ" 6

3. Описание работы системы и основные функции

Принципиальной особенностью системы "Лавниа" является то, что, во-первых,

система способна обрабатывать как текстовую, так и аудиовизуальную информацию

и, во-вторых, система поддерживает полный цикл обработки данных, т.е. преобразо-

вание данных в информацию и извлечение знаний из информации посредством про-

ведения анализа текста и ситуационного моделирования.

Основные характеристики ИАС "Лавина" приведены на рисунке 1.

Рисунок 1. Основные характеристики ИАС "Лавина"

В качестве источников данных для ИАС могут выступать любые известные ис-

точники информации (интернет, файловые системы, базы данных, аудио- и видеока-

налы). ИАС способна работать как с потоком, так и с файлами практически всех из-

вестных форматов. Укрупненная схема работы системы представлена на рисунке 2.

Page 7: Информационно-аналитическая система "Лавина" Комплексная обработка больших массивов текстовой и

ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СИСТЕМА "ЛАВИНА"

ЗАО НТЦ "ПОИСК-ИТ" 7

Рисунок 2. Укрупненная схема работы системы

Каждый входящий файл подвергается предварительной обработке. Речь, со-

держащаяся в аудиофайлах и звуковых дорожках видеофайлов, преобразовывается в

текст, и определяется принадлежность голоса говорящего (диктора). Бегущая строка

и титры в видеофайлах преобразовываются в текст. В графических файлах, извле-

ченных из текста, а также кадрах, на которые разбиваются видеофайлы, производит-

ся поиск и распознавание печатного текста и образов (логотипов, силуэтов и т.п.) и

идентификация лиц (технологии обработки телевизионного сигнала представлены на

рисунке 3). Такая информация, так же как и текстовое содержание документов, индек-

сируется и становится доступной для поиска, мониторинга и дальнейшей аналитиче-

ской обработки.

Page 8: Информационно-аналитическая система "Лавина" Комплексная обработка больших массивов текстовой и

ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СИСТЕМА "ЛАВИНА"

ЗАО НТЦ "ПОИСК-ИТ" 8

Рисунок 3. Технологии обработки телевизионного сигнала

Аналитическая обработка неструктурированной информации заключается в ее

классификации;

кластеризации;

аннотировании;

формировании рядов данных по

• упоминаемости,

• основным тенденциям,

• оценке критики,

• негативного и позитивного окраса тех или иных объектов, событий

• и пр.

На основе производимого синтаксического и семантического анализа текстов

возможно решения ряда прикладных задач, таких, как: контент-анализ, ивент-анализ,

поддержка ситуационного моделирования и пр.

Пример визуализации результатов аналитической обработки информации при-

веден на рисунках 4-5.

Page 9: Информационно-аналитическая система "Лавина" Комплексная обработка больших массивов текстовой и

ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СИСТЕМА "ЛАВИНА"

ЗАО НТЦ "ПОИСК-ИТ" 9

Рисунок 4. Автоматическая кластеризация информации

Рисунок 5. Результаты аналитической обработки текстов.

На примере анализа деятельности госкорпораций

Моделирование развития ситуации осуществляется на основе когнитивных

карт – моделей ситуаций, представляющих собой структуру причинно-следственных

связей между ключевыми факторами, определяющими развитие ситуаций. Пример

такой модели и результаты моделирования представлены на рисунке 6.

Page 10: Информационно-аналитическая система "Лавина" Комплексная обработка больших массивов текстовой и

ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СИСТЕМА "ЛАВИНА"

ЗАО НТЦ "ПОИСК-ИТ" 10

а) Когнитивная карта оценки последствий введения платы за любительское рыболовство

б) Результаты моделирования последствий введения платы за любительское рыболовство

Рисунок 6. Когнитивная карта ситуации и результаты моделирования

Page 11: Информационно-аналитическая система "Лавина" Комплексная обработка больших массивов текстовой и

ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СИСТЕМА "ЛАВИНА"

ЗАО НТЦ "ПОИСК-ИТ" 11

4. Архитектура системы

ИАС "Лавина" построена по модульному принципу и может содержать любой

набор функций в зависимости от конкретных задач, стоящих перед заказчиком.

Система представляет собой сервис-ориентированную платформу, позволяю-

щую настраивать ее индивидуально для каждого внутреннего и внешнего пользова-

теля (рисунок 7).

И А С « Л А В И Н А »

Источник 1 Источник 2 Источник 3 Источник 4 Источник …

Потребитель 1 Потребитель 2 Потребитель 3 Потребитель ...

Конфигурация 2 Конфигурация 3 Конфигурация ...Конфигурация 1

Рисунок 7. Сервис-ориентированная платформа