Методология поиска и идентификации нечетких...

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ«МОСКОВСКИЙ АВИАЦИОННЫЙ ИНСТИТУТ

(национальный исследовательский университет)» (МАИ)

Факультет №8Прикладная математика и физика

Распространяется: на правах рукописи.

Методология поиска и идентификации нечеткихдубликатов видеоизображений

При содействии интернет-кинотеатра TVzavr

Автор: И.К. Никитин

Дата: 10 сентября 2012

Москва 2012 г.

http://tvzavr.ru

1

СОДЕРЖАНИЕ

Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1. Постановка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.1.Нечеткие дубликаты . . . . . . . . . . . . . . . . . . . . . . . . . 41.2.Классификация видео . . . . . . . . . . . . . . . . . . . . . . . . 51.3.Поиск видео . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2. Предполагаемое решение . . . . . . . . . . . . . . . . . . . . . . . 72.1.Термины . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2.Нечеткие дубликаты . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2.1 Наивный подход . . . . . . . . . . . . . . . . . . . . . . . . . 82.2.2 Определение перемены сцен . . . . . . . . . . . . . . . . . . 102.2.3 Сравнение звука . . . . . . . . . . . . . . . . . . . . . . . . . 132.2.4 Сравнение внутри сцен . . . . . . . . . . . . . . . . . . . . . 142.2.5 Дальнейшее развитие . . . . . . . . . . . . . . . . . . . . . . 16

2.3.Классификация видео . . . . . . . . . . . . . . . . . . . . . . . . 172.3.1 Наивный подход . . . . . . . . . . . . . . . . . . . . . . . . . 172.3.2 Улучшения наивного подхода . . . . . . . . . . . . . . . . . 192.3.3 Проблемы наивного подхода . . . . . . . . . . . . . . . . . . 202.3.4 На основе определения нечетких дубликатов . . . . . . . . . 212.3.5 Дальнейшее развитие . . . . . . . . . . . . . . . . . . . . . . 22

2.4.Поиск по видео . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3. Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Список использованных источников . . . . . . . . . . . . . . . . . . 25

2

ВВЕДЕНИЕ

Мы живем в мире информационных технологий, которые прочно вошлив нашу жизнь. Мы пользуемся современными средствами связи. Компьютерпревратился в неотъемлемый элемент нашей жизни не только на рабочем ме-сте, но и в повседневной жизни. Быстрое развитие новых информационныхтехнологий свидетельствует о всевозрастающей роли компьютерной техникив мировом информационном пространстве.

С каждым днем увеличивается число пользователей Интернета. Все боль-ше сетевые технологии оказывают влияние на развитие самой науки и техни-ки. Существует достаточно широкий круг задач, где требуется анализ, аудио-визуальныхмоделей реальности. Это в равной степени относится и к статиче-ским изображениям, и к видео. В частности, для многих военных и граждан-ских приложений, необходимо наличие возможности поиска нечетких дуб-ликатов видео. Для мирного применения, это может быть дополнительнаягруппировка подсказок в выдаче поисковиков (проблема поисковых сниппе-тов), поиск неправомерных публикаций видео-файлов (поиск «пиратского»контента), сокращение объема хранимой и передаваемой информации.

3

Для военного применения можно тоже перечислить несколько вариантов.

1) Сравнение видео-потока с камеры и записанного в качестве образца.Это позволит более эффективно использовать оптические регистрато-ры для беспилотных летательных аппаратов. Причем, при достижениидостаточного качества сравнения, и надлежащих пространственно вре-менных характеристик, для некоторых задач, можно будет отказатьсяот радионавигации, заменить ее оптической.

2) Отслеживание и определение сходных объектов и явлений с видео-регистратора спутника.

Если для набора объектов можно попарно сравнить их на неравенство, то изэтого набора можно сформировать классы эквивалентности объектов. Про-блема классификации видео имеет большее число приложений, чем преды-дущая. Ее частные решения могут быть применены в задачах описанных вы-ше. Кроме того, классификация видео, полезно для автоматизированного со-ставления каталогов. А при некоторой затрате ручного труда, для созданияполноценных категорий видео.

С определением нечетких дубликатов и классификацией видео связанаболее широкая проблема поиска по видео. На данный момент существуетбольшое число, «видео поисковиков», но они обычно занимаются анализомтекстовой информации, которая сопровождает видео.

Исходная проблема поиска, на основе данных самого видео пока не нашласвоего кардинального решения.

4

1. ПОСТАНОВКА

Во введение были обозначены основные направления исследовательскойработы. Таким образом есть три связанные проблемы:

• определение нечетких дубликатов;

• классификация видео;

• поиск по видео.

...Определение нечетких дубликатов

.

.

Классификация видео

.

.

Поиск по видео

Рис. 1.1. Основные направления исследовательской работы

1.1. НЕЧЕТКИЕ ДУБЛИКАТЫДаны два произвольныx видео файла или потока. Нужно выяснить явля-

ются ли они дубликатами друг друга. Здесь, под словом дубликат понимаетсяне формализуемое условие: «На этих файлах изображено одно и то же?».

Возможна, и другая постановка этой задачи. Дан набор видео, для новогодобавляемого в этот набор видео нужно определить, есть ли дубликат этогонового видео в наборе или нет.

Понятие «нечеткий дубликат» является устоявшимся термином в задачахинформационного поиска и обычно употребляется применительно к доку-ментам и изображениям. Нечеткость в данном случае интерпретиру-ется какнеполное или частичное совпадение документов или изображений. [8]

5

...Нечеткие дубликаты

.

.

Естественные .

.

Искуственные

Рис. 1.2. Нечеткие дубликаты

Нечеткие дубликаты бывают двух типов: естественные и искусственные.Естественные нечеткие дубликаты видео — совокупности одних и тех жесцен видео, полученные при схожих условиях. Искусственные нечеткие дуб-ликаты видео — видео полученные на основе одного и того же исходноговидео.

Наиболее простым является определение искусственных нечетких дубли-катов. Однако, сложность определяется тем, что они могут иметь различноепредставление (файл, поток), видео может иметь различную длину, частотукадров, может быть сжато различными методами, и, вообще говоря, иметьвставки.

Что касается вставок в видео, то задачу можно расширить поиском фраг-ментов видео, и определением процентного соотношения этих фрагментов.

1.2. КЛАССИФИКАЦИЯ ВИДЕОДан набор видео, нужно разбить этот набор видео на классы эквивалент-

ности. Если такое разбиение уже существует, то каждое новое видео требу-ется отнести к тому или иному классу. В простейшем случае, классифика-цию видео можно построить на основе определения нечетких дубликатов.Однако, на основании методов определения нечетких дубликатов всего ско-рее удастся провести более сложную классификацию.

Сама по себе задача классификации видео не зависит от задачи определе-ния нечетких дубликатов. Более того, задача определения дубликатов можетбыть решена с помощью задачи классификации.

6

1.3. ПОИСК ВИДЕОЕсть база данных видео. И есть запрос в эту базу данных. Нужно выдать

все видео удовлетворяющих этому запросу в порядке релевантности.Сам по себе запрос может представлять из себя:

• текстовую характеристику искомого видео;

• некоторый видео файл или его фрагмент

Понятно, что задачу поиска видео в общем виде решить невозможно, но вработе будет предпринята попытка решить его в некотором частном случае.Мы будем опираться на результаты решения предыдущих задач.

Если запрос является некоторой характеристикой видео, то тогда нужноэти характеристики как-то выделять и связывать, с неформальными пред-ставлениями человека, составившего запрос.

7

2. ПРЕДПОЛАГАЕМОЕ РЕШЕНИЕ

2.1. ТЕРМИНЫСцена — совокупность кадров и звукового сигнала, внутри однородной об-

ласти спектр видео сигнала, которой значительно отличается от сосед-них областей, и, возможно, отличается спектр ее звукового сигнала.

«Символ» — набор заданных характеристик кадра, и набор соответствую-щих доверительных интервалов для каждой из характеристик.

[(X1, D1), (X2, D2), ..., (XN , DN)]

Xi — по сути является математическим ожиданием; Di — дисперсия.

ffmpeg — набор свободных библиотек с открытым исходным кодом, ко-торые позволяют записывать, конвертировать и передавать цифровыеаудио- и видеозаписи в различных форматах. Он включает libavcodec—библиотеку кодирования и декодирования аудио и видео и libavformat— библиотеку мультиплексирования и демультиплексирования в ме-диаконтейнер.

Если не оговорено противное, то когда мы говорим «кадры», то подразу-меваем именно несущие кадры, без компенсации движения (так называемыеI-фреймы), если работа производиться со сжатым видео. Если видео не сжа-то, все его кадры являются несущими.

8

2.2. НЕЧЕТКИЕ ДУБЛИКАТЫ

2.2.1. НАИВНЫЙ ПОДХОД

Опишем предполагаемый подход для задачи определения нечетких дуб-ликатов во второй формулировке задачи. Для определения похожих файлов,будем последовательно проводить следующие операции. Для всех исходныхфайлов вычислим :

• контрольные суммы;

• продолжительность;

• разделения сцен на основе ffmpeg;

• огрубленные версии файлов на основе вейвлет анализа (для каждо-го вейвлета и заранее опереледеленного списка, ддя каждого уровняогрубления)

На этапе загрузки для нового файла вычисляются контрольные суммы ипродолжительность и сравниваются с этими характеристиками для исходныхфайлов. Обозначим

• новое видео — (NF );

• исходные файлы — (SSF ) = ((SF1), (SF2), ...(SFn));

На основании сравнения (NF ) попадет в одну из трех групп:

G0 Не определено.

G1 Уникальный.

G2 Похож на один из (SSF ) с некоторой вероятностью, по некоторой при-чине.;

G3 Одинаков с каким-то из (SSF ).

Если для (NF ) и одного из (SSF ), совпадут контрольные суммы, то счи-таем (NF ) одинаковыми← G3; иначе, G0.

9

Если длинна (NF ) совпала с одним из (SSF ), то ролик (NF ) помечается,как похожий← G2; иначе, G0.

Если для (NF ) и одного из (SSF ), совпадут количества сцен, продол-жительность каждой i-той сцены, то фильмы считаются одинаковыми←G3;иначе, G0.

Если для (NF ) и одного из (SSF ), количества сцен будут отличаться неболее чем на 5%, продолжительность каждой i-той сцены будет тоже отли-чаться не более чем 5%, то фильмы считаются похожими← G2. иначе, G0.

Далее для (NF ) изG0 и (SSF ) начинаем сравнивать огрубления. Начина-ем с самого грубого. Если огрубленные (NF ) и (SSF ) не совпали, то← G1,Если совпали, фильм попадает вG2, и продолжаем далее. Уменьшаем огруб-ление и продолжаем далее. Если на последнем уровне огрубления совпали,то фильм считается в G3.

Богатое поле исследований — как проводить вейвлет анализ. Можно длявсех кадров фильмов. А можно проводить сравнения отдельных сцен, делатьвыводы о похожести на основе количества похожих сцен. Но лучше исполь-зовать оба варианта анализа. На этапе деления сцен могут возникнуть ошиб-ки. Боле того, для (NF ) и сравниваемого в данный момент (SFi), возможнонадо будет менять продолжительность всего ролика или сцены (обрезать неболее 5% c начала и с конца по очередности). Последнее связано с тем, чтоогрубления вейвлетов не смогут отловить изменения линейного монтажа ро-лика. Т.е. возможна ситуация, когда ролики являются одинаковыми но (NF )

«на несколько секунд» короче. Основная проблема здесь заключается в том,как можно поймать эти самые «несколько секунд».

В результате всех сравнений мы получили 3 группыфильмов 1-2. Причем,фильмы из групп G1 и G2, могут потребовать дополнительного анализа.

Для дополнительного анализа предлагается использовать модификации«наивного метода» классификации видео. Т.е. выделять сцены для (NF ) и(SSF ), для каждой сцены выделять наборы характеристик и на основе дове-рительных интервалов сравнивать сцены. А на основании похожих и различ-ных сцен делать выводы о похожести схожести и различия роликов.

Для похожести сцен, для всех (SSF ) попытаться вычислить попарноесходство всех сцен. И потом уже делать выводы, что сцены из (NF ) похо-жи на них. Это позволит минимизировать ошибки полученные на предыду-

10

щих этапах Например, мы получили, что для сцены A и похожи c вероят-ностью p1, и B и похожи c вероятностью p2. Про A и C похожи c вероятно-стью p3. Но мы можем сделать вывода, что A и тоже похожи c вероятностьюmax(p3, F (p1, p2)). В простейшем случае F (p1, p2) = p1 · p2.

Подход, поиска дубликатов видео, основанный на выделении сцен былтакже предложен в [7]. Однако в этой работе авторы строили дерево пере-мены сцен, на основе их значимости. Далее для каждого видео производилисравнение таких деревьев.

2.2.2. ОПРЕДЕЛЕНИЕ ПЕРЕМЕНЫ СЦЕН

На наш взгляд, выделение точек перемены сцен внутри видео файлаили потока является ключевым моментом, для поиска нечетких дубликатов.Это особенно становится понятно в случае искусственных нечетких дубли-катов. Видео может быть подвернуто совершенно любым преобразованиям,но при этом оно сохранит, то явление или объект, что не нем изображены. Вданном случае, очень важно каким методом было получено разделение сцен.Чаще всего используют три варианта для разделения:

• сравнение гистограмм яркости кадров;

• сравнение спектров кадров (на основании дискретного косинус-преобразования);

• сравнение векторов движения кадров.

В наивном подходе описанном выше предполагалось, что деление на сце-ны будет производиться при помощи ffmpeg. Однако, для деления сцен вffmpeg вектора движения не учитываются. Это создает некоторые трудно-сти для определения перемен сцен. Кроме того, как показали эксперименты(см. таблицы 2.1 и 2.2), некоторые перемены сцен ffmpeg пропускает для ис-кусственных дубликатов, закодированных по-разному.

Для одного и того же файла сжатого различными кодеками или с разны-ми битрейтами распознанные сценымогут значительно отличаться. Понятно,что некоторые перемены сцен могут быть распознаны ошибочно, а некото-рые вообще не распознаны. Для объяснения природы таких явлений, нужно

11

точно понимать, какой алгоритм используется в ffmpeg и в чем его особен-ности. Это тема для отдельного исследования. Возможно, имело бы смыслразработать свой детектор сцен, и сравнить его с существующими.

Рис. 2.3. Пример выделения сцен на основе ffmpeg

Для анализа сходства файлов на основе перемены сцен, предполагаетсяиспользовать нечеткий поиск образца. На данный момент брать и оцениватьдлины интервалов различных видео относительно друг друга. Если размертекущего интервала одного видео значительно отличается от интервала дру-гого видео, то текущий интервал первого видео рассматривается вместе соследующим.

Таблица 2.1. Временные отметки перемены сцен для видео закодированногоразличными кодеками. Замеры проводились при низкой чувствительности.

Отметки в секундах

n vp6f h264

1 0.094 0.04

2 1.654 1.6

3 6.574 6.52

4 11.654 11.6

5 14.254 14.2

Подобный алгоритм применяется в математической лингвистике для вы-равнивания предложений в параллельных корпусах текста— гипотеза Гейла-Чеча. Впервые он был предложен в [3]. На основании этого подхода, можнопредложить и более сложные методы поиска сходства перемены сцен в видео.Основная проблема предложенного алгоритма является то, что он жадный, иможет потребовать значительных вычислительных ресурсов.

12

Таблица 2.2. Временные отметки перемены сцен для видео закодированногоразличными кодеками. Замеры проводились при высокой чувствительности.

Отметки в секундах

n cinepak indeo5 h264

1 0.0666667 0.0666667 0.0666667

2 0.133333 0.133333 0.133333

3 11.3333 — —

4 73.8667 — —

5 74 74 74

6 74.0667 74.0667 74.0667

7 74.3333 74.3333 74.3333

8 74.4 74.4 74.4

9 78.9333 — —

10 87.9333 — 87.9333

11 88 88 88

12 88.0667 88.0667 88.0667

13 88.1333 88.1333 88.1333

14 88.2667 88.2667 88.2667

15 88.3333 — —

16 88.4 88.4 88.4

17 88.4667 88.4667 88.4667

18 94.4667 94.4667 94.4667

19 94.5333 94.5333 94.5333

20 — 101.133 101.133

21 101.4 — 101.4

22 101.667 101.667 101.667

23 101.733 101.733 101.733

24 101.8 101.8 101.8

26 — — 112

Номера строк таблицы 2.2 — просто номера строк таблицы,они не имеют отношения к нумерации сцен.

13

Тем более в случае лингвистики, нам известно, что два рассматриваемыхтекста являются переводами друг-друга (эквивалентами с точностью до язы-ка). В случае с видео нам этот факт как раз требуется установить.

С временными отрезками перемены сцен связана, еще и то, что исходныйфайл может быть ускорен или замедлен. В этом случае абсолютное сравне-ние временных отрезков становится бесполезным. В данном случае кажетсялогичным, использовать относительные единицы измерений. Однако, возни-кает вопрос, что брать за начало отсчета.

На данный момент кажется правильным использовать 2 варианта:

• длина всех отрезков относительно всех, для таблицы 2.1 (для обоих ва-риантов) это будет представлять матрицу

S =

1.0000 0.3171 0.3071 0.6000

3.1538 1.0000 0.9685 1.8923

3.2564 1.0325 1.0000 1.9538

1.6667 0.5285 0.5118 1.0000

,

• длина отрезков относительно некоторых, например трех предыдущих.

Как видно, из приведенной выше матрицы численное сравнение такихматриц, . для видео со значительным числом сцен может оказаться, весьмазатратным по ресурсам. Потому был предложен второй вариант. Оба вари-анта поиска дубликатов будут работать и в случае, если одно видео являетсячастью другого (только если они имеют общие две или более сцен).

Важно отметить, что определять сцены можно не только на основе визу-альной информации. Очень хорошим источником информации о переходе отсцене к сцене может служить звук. Определять переходы можно с помощьюметодов изложенных выше. Особенно интересным с нашей точки зрения яв-ляется сравнение спектров на определенных временных отрезках и отноше-ние пикового сигнала к шуму.

2.2.3. СРАВНЕНИЕ ЗВУКА

Сравнение звука двух видео можно рассматривать как самостоятельныйспособ определения нечетких дубликатов файлов. Проблема состоит в том,

14

что для каждого конкретного приложения придется анализировать свой ча-стотный диапазон. Тем более в случае космических приложений этот методокажется неприменим. Рассмотрим частные приложения.

ОПРЕДЕЛЕНИЕ «ПИРАТСКИХ» ВИДЕО

Видео может содержать человеческий голос, причем звуковой дубляж мо-жет быть сделан разными актерами, на разных языках. Потому основыватьсялучше на музыке, взрывах, тишине и пр. Для более правильного определе-ния, нужно будет убрать сигналы, с частотами из диапазона голоса челове-ка. Далее можно применять методы описанные выше: сравнивать спектры сопределенным шагом и проводить вейвлет анализ.

АВИАЦИОННОЕ ПРИМЕНЕНИЕ

Видео может содержать любые звуки. Наверно более интересны тут будутзвуки из заданного набора шумов (звуки того или иного вида техники, звукитого или иного географического объекта). Подходы сходные с предыдущимприложением, но вырезать частоты определенного спектра всего скорее непридется. А после приближенного сравнения всего скорее потребуется болеедетальное сопоставление.

2.2.4. СРАВНЕНИЕ ВНУТРИ СЦЕН

До этого в рассуждениях мы полагались на гипотезу, что для двух видеоявляющихся нечеткими дубликатами, разделение на сцены совпадает, и малавероятность проявления такого совпадения для видео не являющимися дуб-ликатами.

Искусственно можно подобрать (создать) пример противоречащий этойгипотезе. Таким образом, можно придти к выводу, что сравнения длиннысцен видео может оказаться недостаточно.

Сравнение внутри сцен можно проводить на основе вейвлет анализа кад-ров и звука, как было предложено в наивном подходе. Однако, для сравненияизображений существуют методы на основе знакового представления, пред-ложенного в [8]. Суть этого подхода заключается в том, что любое изобра-

15

жение (статическое) можно представить матрицей значений {−1, 0, 1}. Еслияркость текущего пикселя изображения ярче чем предыдущего, ему присва-ивается 1, если не изменилась, — 0, темнее — −1. Обход ведется по восьминаправлениям. После введения функции расстояния основанной на относи-тельной энтропии, можно отличать кадры друг от друга.

Изображение внутри сцены не должно сильно меняться. Для сравнениявнутри сцен можно предложить сравнивать первые кадры сцен. Как вариантсравнивать на основе знакового представления.

Для повышения качества сравнения, можно расширить набор набор кад-ров, и сравнивать n привольных кадров сцены. Продолжая эту идею, можнопридти к понятию «общего кадра». Над набором кадров сцены вычисляет-ся среднее значение яркости каждого пикселя эти значения складываются иобразуют так называемый «общий кадр».

Далее проводить сравнение для сцены только общих кадров.Мы умышленно здесь не пытаемся определять семантику кадров, зани-

маться распознаванием того, что на них изображено. На данный момент вобщем случае это не представляется возможным. Существующие методыраспознавания образов достаточно затратны по ресурсам, и имеют высокуюнеустойчивость.

16

2.2.5. ДАЛЬНЕЙШЕЕ РАЗВИТИЕ

Дальнейшее развитие этого направления исследования нам представля-ется следующим образом.

1) Выяснить каким образом происходит практически применимое разде-ление видео на сцены, при необходимости реализовать свой алгоритм.Протестировать варианты предложенные другими авторами и свой нареальных примерах

2) Разработать алгоритм нечеткого поиска по образцу для сравнения длинсцен различных видео.

3) Реализовать сравнение сцен на основе знакового представления изоб-ражений, реализовать сравнение сцен на основе вейвлет-анализа и про-вести сравнение обоих методов.

4) Проверить возможность сравнения видео на основе их звукового сиг-нала. Будем пытаться сделать это для одного из частных случаев— дляопределения искусственных нечетких дубликатов.

5) Проверить суммарную работоспособность алгоритмов и методов изпредыдущих пунктов.

17

2.3. КЛАССИФИКАЦИЯ ВИДЕОЗадача классификации видео сама по себе не зависит от задачи опреде-

ления нечетких дубликатов. Более того, задача определения нечетких дубли-катов может быть решена на основе классификации. В данном случае, онасводится к «поиску ближайшего соседа» в некотором пространстве характе-ристик. Для этого удобно было бы использовать диаграммыВороного, как этобыло предложено в [1]. Также после введения некоторой метрики оцениватьблизость через сравнение с некоторым малым числом ε.

Существует больше количество работ, посвященных классификации ви-део. Но в большинстве из них рассматриваются некоторые частные случаепроблемы. Ниже мы покажем наивный подход классификации видео, не свя-занный с проблемой определения нечетких дубликатов.

2.3.1. НАИВНЫЙ ПОДХОД

Предложенный подход в равной степени подходит для классификации ви-део целиком и отдельных сцен видео.

ОБУЧЕНИЕ

Сцены будем делить явно на основании определений. Далее для наборасцен из набора фильмов, будем пытаться вычислить

X1 —Спектры кадров.

X2 —Огрубленные формы кадров (на основе вейвлет-анализа).

...

Xn — Другие параметры могут потребовать дополнительного исследова-ния.

Возможно вместо списка [X1], [X2], ..., [XN ] имеет смысл рассматриватьсредние значения по кадрам. Это эффективнее в последствии, но может при-вести к сильным ошибкам. Примечания:

18

1) Не факт, что все кадры сцен будут обладать надлежащим качеством.Возможны значительные артефакты, которые могут как-то влиять навнешнее отображение кадров. Потому тут мы говорим, что будем ис-пользовать вейвлеты.

2) Для простоты, на начальном этапе, имеет смысл сигнал RGB перело-жить в стандартные координаты видео YUV. Где Y — яркость изобра-жения.

3) На основании примечания б, Характеристикой сцены (Xk) может бытьнабор пикселей (в координате Y) кадра. Тогда интервалом может значе-ние PSNR (отношение максимального сигнала кшуму) для двух кадров,

Для всех сцен, всех фильмов ищем наиболее близкие по характеристи-кам. У нас получится большой граф. Задав доверительный интервал. На ос-новании этого графа мы сможем построить классы эквивалентности сцен.Далее для всех классов эквивалентности просматриваем вручную все сце-ны в них и задаем тематику. Если класс был выделен ошибочно (человекне смог определить тематику), то помечаем его как ошибочный, и далее нерассматриваем. Если оказалось много ошибочных классов эквивалентности,то нам будет нужно изменить размер доверительного интервала. Задача ка-жется похожей, на задачу классификацию документов. Сцены — докумен-ты. Множества [X1], [X2], ..., [XN ] — слова. Только с текстовыми докумен-тами у нас одно измерение. А тут может быть несколько (правда с погреш-ностью). Для каждого класса эквивалентности вычленим интервалы значе-ний [I1], [I2], ..., [IN ]. Это и будет характеристикой классов эквивалентностисцен.

ЭКСПЛУАТАЦИЯ

Есть набор сцен некоторого фильма. Нам нужно отнести их к одномуиз классов эквивалентности. Для каждой сцены вычисляем характеристики.[X1], [X2], ..., [XN ] Смотрим попадают ли характеристики в интервалы одно-го из классов, если да, то сцены получают соответствующий класс. Если непопали ни в какой. то эти сцены попадают в множество для дальнейшего обу-чения системы.

19

2.3.2. УЛУЧШЕНИЯ НАИВНОГО ПОДХОДА

1) Обучение и применение системы можно делать в несколько шагов. Наэтапе обучение и применение можно вычислять точные, усредненныехарактеристики сцен, максимальные и минимальные. Помнить все че-тыре класса характеристик. При составлении классов эквивалентностивычислять интервалы значений характеристик как и в наивном случае,и вычислять огрубленные интервалы, ((минимальное среди сцен клас-са), (максимальное сцен класса)) На этапе применение сначала про-верять попадание внутрь этого (min,max). Проверок в среднем будетбольше, но это сэкономить нам время в худшем случае.

2) Как и в рамках классической классификации документов, можно вос-пользоваться частотной информации о характеристиках сцен. Для двухкадров разных сцен считается, что характеристики «условно равны» ес-ли они отличаются не более чем доверительный интервал. Считаем, чтоэто один и тот же символ. Можно попытаться найти как часто такойсимвол встречается внутри одной и той же сцены. На основании та-ких частот можно построить другие классы эквивалентности. На этапеприменения будет анализировать сцену сначала на основании первыхклассов эквивалентности, потом на основании классов эквивалентно-сти по частотам. Важно отметить, что ни для первых ни для вторыхклассов, мы не пытаемся учитывать порядок этих «символов».

3) Использовать итеративный алгоритм максимизации правдоподобия.Пока не очень понятно, как его можно адаптировать к этой задачи. Какминимум для него нужно получить множество «символов», которое унас заведомо с ошибками. После чего сопоставлять последовательно-сти таких «символов», и вычислять эквивалентность цепочек симво-лов. Совсем будет хорошо, если его удаться применить, для автомати-ческой подстройки доверительных интервалов.

20

2.3.3. ПРОБЛЕМЫ НАИВНОГО ПОДХОДА

Самым сложным, в этой задаче, является проблема выделения «симво-лов». Каким-то образом нужно задавать характеристики и доверительные ин-тервалы их изменения. Для качественного их определения, нужно некотороечисло экспериментов. Самое простое, что можно использовать, описано в на-ивном варианте системы. Это спектры каждого кадра сцены. Был упомянутвейвлет анализ. Всего скорее придется еще подбирать параметры вейвлетов.В данном случае в огрубления на основе разных вейвлетов могут выступатькак разные характеристики.

Доверительные интервалы для каждой характеристики, возможно, при-дется подбирать отдельно. Более того, возможно адаптивный подбор интер-валов, при изменении характеристик кадров. Например, если характеристикиизменяются от кадра к кадру сильнее, чем ранее, то доверительный интервалможно увеличить.

Из-за сложности выделения символов и возможных ошибок ставится посомнение улучшение 2. В рамках одной сцены при одних доверительных ин-тервалах может не оказаться одинаковых «символов», с другой стороны, мо-жет сложиться ситуация, что все «символы» внутри сцены одинаковы.

Для адекватной работы системы, тематики используемых сцен придетсяжестко ограничивать заданным набором. Для другого набора тем, довери-тельные интервалы, в общем случае, придется подбирать заново вручную.

21

2.3.4. НА ОСНОВЕ ОПРЕДЕЛЕНИЯ НЕЧЕТКИХ

ДУБЛИКАТОВ

Если задача определения нечетких дубликатов, окажется решенной вдолжной мере, способами описанными выше, то задача классификации ви-део, будет решена простым введением классов эквивалентности на основенеравенства. Однако, видео тогда можно будет разбивать на классы различ-ными способами.

1) По функции количества и продолжительности сцен от времени видео.Например можно выделить:

• удельное число перемены сцен на единицу времени;

• средняя продолжительность сцен;

• продолжительность сцен в начале, середине или конце видео.

2) По яркости отдельных сцен, и видео целиком.

3) По спектру характеристика отдельных сцен, и видео целиком.

4) По звуку видео.

Впоследствии при дополнительном исследовании можно выяснить, каквыделенные классы связаны с категориям видео, выделяемыми человеком.

С коммерческой точки зрения, как мне кажется будет интереснее созда-вать группы «похожих» фильмов, которые не будут попадать под обычнуюкатегоризацию, проведенную человеком.

В результате сравнения сцен при определении нечетких дубликатов, какпобочный эффект, могут быть выявлены признаки сцен. Эти признаки сценможно использовать, для классификации сцен независимой от классифика-ции фильмов. Кроме того, классификация сцен видео может быть полученаи на основе классификации самих видео, на основании того в каких видеобыли встречены похожие сцены.

22

2.3.5. ДАЛЬНЕЙШЕЕ РАЗВИТИЕ

Для дальнейшей проработки классификации видео необходимо дополни-тельное изучение литературы, посвященной этому вопросу. Развитие пред-ставляется в двух независимых направлениях.

1) Разработка системы классификации на основе выделения «символов».Слабые стороны и проблемы этого подхода были описаны выше.

2) Разработка системы классификации видео, с опорой на определениенечетких дубликатов.

3) Объединить оба подхода, на основе сферы применения. Первое дляклассификации сцен внутри видео, второе для классификации самихвидео.

Не исключено, что в процессе исследования наивный метод классифика-ции для сцен видео будет заменен, на что-то менее сомнительное.

23

2.4. ПОИСК ПО ВИДЕОВ работе [1] на страницах 19-21 описана возможная архитектура такого

видео-поисковика. В текущем исследовании это является максимальной за-дачей. Решение двух предыдущих задач являются необходимым условиемсоздания такого поисковика.

Рис. 2.4. Схема поисковой системы по видео, взята из [1]

Для составления поискового индекса понадобится некоторое компактноепредставление видео. Это компактное представление может быть получе-но на основе методов поиска нечетких дубликатов и классификации сцен.В частности одним из уровней компактного представления является относи-тельные длины отрезков сцен, и знаковое представление внутренних кадровсцен. Наличие некоторых классов видео в примитивных случаях может све-сти поиск по видео к поиску по бинарному дереву. Это не является полноцен-ным поиском по видео, но он может пригодится в некоторых приложениях.

В любом случае наличие классов видео значительно упростят поиск. Кро-ме того, если для классов была человеком создана категоризации, то катего-рия присвоенная классу может выступать как дополнительная характеристи-ка видео в этом классе. А значит по этим характеристикам можно осуществ-лять поиск.

24

3. ЗАКЛЮЧЕНИЕ

Были поставлены три возможные задачи исследования и описаны воз-можные пути их решения. Возможно, в процессе работы некоторые из пред-ложенных подходов будут отвергнуты, но на данный момент они кажутсянаиболее приемлемыми.

Все три задачи рассмотренные в реферате могут быть решены через другдруга. Самой сложной кажется задача поиска по видео, но ее сложность за-ключается в отсутствии достаточной формализации проблемы, и недоста-точной проработке составляющих. Задачи классификации видео, сцен ви-део и поиска нечетких дубликатов видео представляются эквивалентнымипо сложности. Проблема оценки состоит в недостаточном на данный моментколичестве экспериментальных данных.

На момент написания реферата оказалась наиболее проработана теманечеткого поиска дубликатов видео. Мы свели поиск нечетких дубликатов клингвистической проблеме выравнивания предложений. Это особенно важнос учетом предыдущей (дипломной) работы посвященной проблеме машинно-го перевода. Сама по себе возможность такого сведения, и наличие решенияпроблемы в другой области науки дает веские основания полагать о связан-ности этих областей. Мы считаем, что гипотеза Гейла-Чеча не единственное,утверждение, которое будет позаимствовано из лингвистики в процессе вы-полнения работы.

25

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. Cheung Sen-Ching. Efficient video similarity measurement and search : Ph. D.thesis / Sen-Ching Cheung. –– University of California, Berkeley, 2002. ––AAI3082139. 17, 23

2. Chum Ondřej et al. Scalable near identical image and shot detection //Proceedings of the 6th ACM international conference on Image and videoretrieval. –– CIVR ’07. –– New York, NY, USA : ACM, 2007. –– P. 549–556.

3. Gale William A., Church Kenneth W. A program for aligning sentences inbilingual corpora // Proceedings of the 29th annual meeting on Association forComputational Linguistics. –– ACL ’91. –– Stroudsburg, PA, USA : Associationfor Computational Linguistics, 1991. –– P. 177–184. 11

4. Shen Heng Tao et al. Statistical summarization of content features for fast near-duplicate video detection // Proceedings of the 15th international conferenceon Multimedia. –– MULTIMEDIA ’07. –– New York, USA : ACM, 2007. ––P. 164–165.

5. Yang Jun et al. Harmonium Models for Video Classification // Stat. Anal. DataMin. –– 2008. –– feb. –– Vol. 1, no. 1. –– P. 23–37.

6. Zhao Wan-Lei, Wu Xiao, Ngo Chong-Wah. On the Annotation of Web Videosby Efficient Near-Duplicate Search // Trans. Multi. –– 2010. –– aug. –– Vol. 12,no. 5. –– P. 448–461.

7. ГлазистовИ. В. ПаршинА. Е. Алгоритм поиска дубликатов в базе видеопо-следовательностей на основе сопоставления иерархии смен сцен. –– 2010.10

8. Гончаров А. В. Разработка и исследование модели знакового представ-ления данных в задачах распознавания образов : Диссертация к. т. наук:05.13.17 / А. В. Гончаров ; Научно-конструкторское бюро вычислительныхсистем. –– Таганрог, 2010. 4, 14

Методология поиска и идентификации нечетких...

Technology