Самоподобный трафик

27
Самоподобный трафик

Upload: pavel-grubyi

Post on 28-Jul-2015

1.879 views

Category:

Documents


9 download

TRANSCRIPT

Page 1: Самоподобный трафик

Самоподобный трафик

Page 2: Самоподобный трафик

Предположим, что вы наблюдаете за мегабитной линией, по которой передаются кадры фиксированного размера 4000 бит и время передачи каждого кадра составляет 4 мс. Время прибытия кадров записывается на стороне получателя (время, когда прибывает первый бит каждого кадра)

0 8 24 32 72 80 96 104 216 224 240 248 288 296 312 320

648 656 672 680 720 728 744 752 864 872 888 896 936 944 960 968

В данном случае трудно разглядеть какую-либо закономерность или сосчитать статистические параметры. Сгруппируем трафик, считая кластером любую группу кадров, в которой нет пауз больших, чем пять длительностей передачи кадра (20 мс), и запишем начальное время каждого кластера

0 72 216 288 648 720 864 936

Промежутки между кластерами неодинаковы, и понять закономерность трафика все также трудно. Сгруппировать трафик на более высоком уровне. Определим кластер как группу кадров, в которой нет промежутков больших, чем 10 интервалов передачи кадров (40 мс)

Page 3: Самоподобный трафик

Трафик выглядит как два кластера с промежутком между ними, за которыми следует больший промежуток, а затем снова два кластера с небольшим промежутком между ними.

0 216 648 864

216 432 216 Если рассмотреть предыдущую группу из восьми кластеров, то мы увидим ту же закономерность. Первые четыре значения времени прибытия следуют той же схеме (прибытие, короткий интервал, прибытие, длинный интервал, прибытие, короткий интервал, прибытие).

0 72 216 288 648 720 864 936

144

72 72 72 72

360 144

Page 4: Самоподобный трафик

Возвращаясь к исходному набору из 32 кадров, мы наблюдаем ту же последовательность, повторенную восемь раз. Таким образом, у нас есть временная последовательность встречающаяся на самом нижнем уровне и повторяющийся на более высоких уровнях группирования.

Явление, обладающее свойством самоподобия, выглядит одинаково при его рассмотрении с разной степенью «увеличения» или в разном масштабе. При этом масштабируемой величиной может быть как пространство (длина, ширина) так и время.

0 8 24 32 72 80 96 104 216 224 240 248 288 296 312 320

648 656 672 680 720 728 744 752 864 872 888 896 936 944 960 968

8

8 16 8 40

16 8 40

108

108

40

40

Page 5: Самоподобный трафик

Представим кадр как вертикальную линию некоторой толщины которая будет означать время, необходимое для приема кадра целиком (4 мс). Расстояние между линиями будет обозначать время между прибытиями кадров Если схематически изобразить кластера на разных уровнях из предыдущих примеров то получим следующие:

Похожий пример может быть получен из множества знаменитого конструктора Кантора (Cantor), подчиняющегося следующим правилам: - начните с интервала [0, 1], представленного линейным сегментом; - удалите среднюю треть линии [1/3,2/3]; - для каждого следующего шага удалите среднюю треть линий, оставшуюся после предыдущего шага;

Page 6: Самоподобный трафик

Подобное недетерминированное самоподобие часто встречается как в естественных, так и в искусственных явлениях. Его можно наблюдать в природных ландшафтах, в распределениях землетрясений, в океанских волнах, в турбулентном потоке, во флуктуациях фондовых рынков, в повторяющихся ошибках и трафиках данных каналов связи и т.д.

Page 7: Самоподобный трафик

Самоподобный стохастический процесс

На левом рисунке функция времени не точно повторяется при разной степени увеличения, но ее внешний вид при различных временных масштабах похож. На правом же заметно, что при увеличении масштаба функция становится более прерывистой. А при уменьшении становится более регулярной и с меньшим количеством флуктуаций типичный стационарный

случайный процесс самоподобный

стохастический процесс

Page 8: Самоподобный трафик

Параметр Херста Задача расчета размера резервуара для воды такой величины, чтобы

выходной поток был равен среднему входному так, чтобы резервуар никогда не опустошался и не переполнялся.

Xj – входной поток за год (1 < j < N); M(N) – постоянный ежегодный исходящий поток; Lj – уровень воды в резервуаре в конце года (1 < j < N); N – число лет наблюдения.

Таким образом (N) представляет собой средний входной поток за N лет, Lj – суммарный входной поток за первые j лет минус суммарный выходной поток за те же годы, а , a R(N) — это разница между максимальным и минимальным значениями Lj за эти годы. При этом Lj следует рассматривать как накапливаемую величину, на которую временная последовательность отклоняется от среднего значения за время j. Таким образом, R представляет собой величину, которая, лучше характеризует изменчивость случайной переменной X.

Page 9: Самоподобный трафик

Херст исследовал ряд явлений и разработал нормализованную безразмерную величину R/S, характеризующую изменчивость, где S представляет собой выборочное среднее и было обнаружено, что для многих природных явлений, отношение R/S как функция N хорошо описывается следующей эмпирической формулой для больших значений N:

Можно показать, что для любого краткосрочного процесса отношение R/S становится асимптотически пропорциональным , то есть Н =0,5. Чем больше значения параметра Н тем больше степень изменчивости данных.

Page 10: Самоподобный трафик

Непрерывный во времени процесс Общее определение самоподобного стохастического процесса основано на

прямом масштабировании непрерывной переменной времени. Стохастический процесс x(t) является статистически самоподобным с параметром H (0,5<H<1), если для любого вещественного значения а > 0 процесс обладает теми же статистическими характеристиками, что и сам процесс x(t). Это утверждение можно выразить тремя следующими условиями:

- среднее

- дисперсия

- дисперсия Параметр H называется параметром самоподобия (self-similarity parameter).

Точнее H представляет собой меру устойчивости статистического явления, или меру длительности долгосрочной зависимости стохастического процесса. Значение H = 0,5 указывает на отсутствие долгосрочной зависимости. Чем ближе значение H к 1, тем выше степень устойчивости долгосрочной зависимости.

Page 11: Самоподобный трафик

Дискретный во времени процесс В случае стохастического процесса, определенного в дискретных точках

времени, стохастический процесс Х(t) определяется как {xt,t=0,1,2,...}. Для стационарных временных серий х мы определим m-агрегированные временные серии x(m) = {xk

(m), k=0,1,2,...}, суммируя исходные временные серии по неперекрывающимся соседним блокам размера m. Это может быть выражено так:

где x(3) например определяется как

Агрегированные временные серии можно рассматривать как метод сжатия временной шкалы. Мы можем считать х(1) максимальным увеличением или высочайшим возможным разрешением для этой временной серии. Процесс х(3) представляет собой тот же самый процесс, уменьшенный в три раза. Усредняя по каждому множеству из трех точек, мы теряем мелкие детали, доступные при максимальном увеличении. Если статистические характеристики процесса (среднее значение, дисперсия, корреляция и т. д.) сохраняются при сжатии, тогда мы имеем дело с самоподобным процессом.

Page 12: Самоподобный трафик

Процесс х называется в точности самоподобным (exactly self-similar) с параметром B (0 <B< 1), если для всех m = 1,2,... мы имеем:

Ослабленное условие выглядит так: процесс х называется асимптотически самоподобным (asymptotically self-similar) для всех достаточно больших k, если выполняются условия:

- дисперсия

- автокорреляция Можно показать, что параметр B связан с определенным ранее

параметром Херста как H= 1-(B/2). Для стационарного эргодического процесса B=1, и средняя дисперсия времени стремится к нулю со скоростью 1/m. Для самоподобного процесса средняя дисперсия времени затухает медленнее.

- дисперсия

- автокорреляция Другая интересная особенность предыдущих определений заключается в

том, что дисперсия х(m) уменьшается медленнее, чем 1/m при m→∞, то есть она уменьшается пропорционально l/mB. Для стохастических процессов, как правило, используемых при моделировании систем передачи пакетов данных, дисперсия уменьшается пропорционально 1/m.

Page 13: Самоподобный трафик

Долгосрочная зависимость Определение долгосрочной зависимости основывается на поведении

функции автоковариации С(τ) стационарного процесса при увеличении τ. Для многих процессов с ростом τ автоковариация быстро уменьшается. Например, для пуассоновского инкрементного процесса с приращением L и средним значением λ автоковариация для значений τ>L равна:

В общем, краткосрочно зависимый (short-rang dependent) процесс удовлетворяет условию, заключающемуся в том, что его автоковариация убывает по меньшей мере так же быстро, как экспонента:

обе части формулы асимптотически пропорциональны друг другу

У долгосрочно зависимого (long-rang dependent) процесса, напротив, автоковариация убывает гиперболически:

Здесь B – тот же параметр, который связан с параметром Херста как Н=1–(B/2). В этом случае .

Обратите внимание на то, что условие 0<Р<1 эквивалентно условию

0,5<Н<1. Ранее мы отмечали, что процесс может быть самоподобным при значении Н=0,5, но для долгосрочной зависимости мы должны иметь Н>0,5.

Page 14: Самоподобный трафик

Медленно затухающие расспределения Другой концепцией, связанной с самоподобием, являются медленно затухающие распределения, или распределения с «тяжелыми хвостами» (heavy-tailed distributions). Одно из достоинств этой концепции заключается в том, что она позволяет получить управляемые модели. Медленно затухающие распределения могут использоваться для представления плотностей вероятностей, описывающих процессы передачи данных, такие как интервалы между поступлениями пакетов и продолжительности пакетов. Говорят, что распределение случайной переменной X медленно затухает, если:

Самым простым медленно затухающим распределением является распределение Парето (Pareto) с параметрами k и a(k,а< 0) и следующими функциями плотности, распределения вероятностей и среднего значения:

Page 15: Самоподобный трафик

Параметр k – минимальное значение случайной переменной. Параметр а – среднее значение и дисперсию случайной переменной. Если a≤1 распределение обладает бесконечными средним значением и дисперсией. В подобном масштабе функция экспоненциальной плотности вероятностей представляет собой прямую линию, а хвост распределения Парето убывает значительно медленнее, отсюда и термин тяжелый хвост (heavy tail). Наличие тяжелого хвоста у определенных сетевых переменных (например, размеров файлов) является основной причиной долгосрочной зависимости и самоподобия сетевого трафика.

Page 16: Самоподобный трафик

Трафик сетей Ethernet Между 1989 и 1992 гг лабораторией Bellcore проводились детальные

измерения трафика в сетях Ethernet(точность измерения времени составляла 20 мкс). Данные состоят из четырех множеств данных измерений Ethernet-трафика, произведенных на протяжении от 20 до 40 последовательных часов и состоящих в общей сложности из более чем 100 миллионов пакетов.

Ниже показана зависимость числа передаваемых пакетов от времени. Эти данные входят в блок измерений, произведенных в 1989 г., и состоящий из 27 часов непрерывных наблюдений за Ethernet-трафиком. Верхний график показывает полный 27-часовой интервал, состоящий из 1000 100-секундных интервалов.

А Б В

Page 17: Самоподобный трафик

Каждый следующий график получен из предыдущего путем увеличения разрешения шкалы времени в 10 раз и отображения случайным образом выбранного подынтервала (он показан более темным цветом). Таким образом, второй график охватывает период около 2,7 ч, третий – 0,27 ч и т. д. Если рассматривать эти графики снизу вверх, то точка в каждом следующем графике получается путем усреднения 10 соответствующих точек из более низкого графика.

Page 18: Самоподобный трафик

Исходя из реальных результатов анализа Ethernet трафика, был разработан метод моделирования Ethernet-трафика, который, во-первых, позволяет получить результаты, сходные с данными реального трафика, во-вторых, для которого требуется определить совсем немного параметров, и, в-третьих, правдоподобный физически.

Идея метода заключается в моделировании Ethernet-трафика путем суперпозиции нескольких парето-подобных источников ON/OFF. Каждый такой источник находится в одном из двух состояний: ON, в котором он активно передает пакеты, и OFF, в течение которого он бездействует.

Исследователи из Bellcore промоделировали периоды ON/OFF с помощью распределений с бесконечной дисперсией, в частности, используя распределение Парето с параметром α от 1 до 2. Как уже упоминалось, когда параметр α находится в этом диапазоне, случайная переменная обладает конечным средним значением и бесконечной дисперсией. Показано, что суперпозиция нескольких источников ON/OFF, подчиняющихся распределению Парето, позволяет получить самоподобный трафик с параметром Херста H=(3-α)/2. Обратите внимание на то, что для 1<α<2 мы получим 0,5<H< 1, что представляет собой диапазон самоподобия. Для изучаемого Ethernet-трафика исследователи обнаружили, что параметр α индивидуальных источников равен 1,2, что соответствует самоподобному трафику с H = 0,9.

Page 19: Самоподобный трафик

Трафик Всемирной паутины В процессе исследования трафика Всемирной паутины, включающем

более полумиллиона запросов к веб-документам, были собраны данные на 37 веббраузерах, работавших на рабочих станциях факультета кибернетики Бостонского университета. Используемая методология была сходной с той, что применялась в исследовании сети Ethernet. Исследователи моделировали каждый веб-браузер как источник ON/OFF и обнаружили, что данные очень хорошо соответствуют распределению Парето. Для различных наборов измерений исследователи нашли соответствующие распределения Парето с параметром α в диапазоне от 1,16 до 1,5. Исследователи рассматривали объем веб-данных, передаваемых серверами браузерам, и обнаружили, что хвост распределения соответствовал распределению типа Парето. Авторы выдвинули гипотезу о том, что веб-трафик отражает случайный выбор файлов для передачи. В частности, если пользователи выбирали файлы, не обращая внимания на размер загружаемых файлов, то объем передаваемых данных представлял, случайные выборки из распределения веб-файлов. Продолжая анализ, исследователи обнаружили, что файлы, доступные в Интернете, обладают медленно затухающими распределениями. Это похоже на правду, так как хотя множество файлов в Интернете имеет небольшие размеры, там также много довольно больших и очень больших файлов, например мультимедийных, которые становятся все более популярными в Паутине.

Page 20: Самоподобный трафик

Трафики TCP, FTP и TELNET По результатам исследований широкого спектра TCP-трафика, а также об изучении FTP- и TELNET-трафика, передаваемого по TCP-соединениям. Были сделаны следующие общие выводы:

• В используемых обычно пуассоновских моделях существенно недооценивается неравномерность TCP-трафика в широком диапазоне временных шкал.

• Для интерактивного TELNET-трафика поступления соединений хорошо моделируются пуассоновским распределением. Однако предположение о пуассоновском распределении поступления пакетов, а именно об экспоненциальном распределении интервалов времени между поступлениями пакетов, существенно недооценивает неравномерность трафика.

• Для групповой пересылки данных, осуществляемой протоколом FTP, структура трафика, опять же, заметно отличается от пуассоновского. Поступления FTP-сеансов хорошо соответствуют пуассоновской модели, но скорость поступления данных по FTP-соединениям оказывается более неравномерной. Кроме того, распределение количества байтов в каждом всплеске является медленно затухающим.

Page 21: Самоподобный трафик

VBR-видео Ряд исследований показали, что цифровой видеотрафик того типа,

который передается по сетям ATM и Интернету, является самоподобным. Например, в эксперименте, произведенном с двумя часами видеоинформации с использованием фильма «Звездные войны» в качестве примера. Фильм был закодирован при помощи стандарта JPEG. В результате был получен поток данных, состоящий из кадров переменной длины, в каждом из которых содержится один видеокадр. Переменная длина кадров объясняется природой алгоритма сжатия. Именно это непостоянство длины кадра является основой стохастического процесса.

Результат анализа заключается в том, что видеопередача проявляет самоподобный характер и что длина кадра соответствует распределению Парето, по крайней мере, хвосту этого распределения. Авторы показывают, как высокая степень изменчивости связана с изображением в кадре. В фильме содержатся сцены, в которых мало движения, сцены с небольшим количеством движения и сцены, в которых изображение меняется очень быстро. Все это связано с медленно затухающим распределением кодированного видеосигнала. Исследования показали, что долгосрочная зависимость является неотъемлемой чертой видео трафика VBR, независимо от используемых кодеков и записанных сцен.

Page 22: Самоподобный трафик

Влияние самоподобия на производительность Современные высокоскоростные компьютеры и сети позволяют быстро

собрать и проанализировать достаточное количество данных, чтобы установить наличие самоподобия в превалирующих сегодня потоках данных и оценить его параметры. Однако самоподобие оказывает существенное негативное влияние на производительность.

В исследованиях ученых из лаборатории Bellcore изучались данные, передаваемые по сетям Ethernet, а также данные, передаваемые в сетях ISDN и состоящие из более чем 100000 пакетов. В обоих случаях был построен график зависимости фактической задержки доставки пакета от коэффициента использования сети. Кроме того, параметры, необходимые для анализа очередей, были получены путем наблюдения за потоком данных и применены в формулах.

Согласованность между фактическим и ожидаемым временем нахождения в очереди, полученным при помощи общепринятой теории очередей, очень плохая. Расчеты, основывающиеся на традиционном анализе очередей, показывают, что эффективная мощность сервера составляет около 80 %, тогда как в реальной ситуации задержка начинает резко возрастать уже при коэффициенте использования в диапазоне от 50 до 60 %. Сходные результаты были получены для каждого набора данных для сетей ISDN и Ethernet

Page 23: Самоподобный трафик

Trace Data – данные, полученные экспериментальным путем; Quieving Analysis – модель теории очередей; Utilization – коэффициент использования; Normalized Delay – нормализованная задержка

Page 24: Самоподобный трафик

Модель запоминающего устройства с самоподобными входными данными

В основе разработки используется процесс дробного броуновского движения (FBM). Затем разрабатывается модель нагрузки на основе процесса FBM и бесконечного буфера с постоянным временем обслуживания. При определенных допущениях зависимость необходимого размера буфера q от среднего коэффициента использования р подчиняется следующему закону:

Здесь H представляет собой параметр Херста. При H=0,5 эта формула упрощается до q= р/(1 - р), что представляет собой классический результат системы массового обслуживания с экспоненциально распределенными временными интервалами между поступлениями запросов и экспоненциально распределенной длительностью обслуживания (М/М/1). Для системы с постоянным временем обслуживания (М/D/l) классический результат выглядит следующим образом:

Page 25: Самоподобный трафик

Для больших значений H потребности в буфере начинают стремительно расти уже при незначительном коэффициенте использования. Это оказывает очевидные воздействия на проектирование буферов. Если нужно достичь высокого уровня коэффициента использования, для самоподобного трафика потребуются буферы гораздо большего размера, чем предсказывает классический анализ очередей.

Page 26: Самоподобный трафик

Применимость самоподобных моделей трафика Наличие самоподобных эффектов является существенным в одних сетевых

конфигурациях и не оказывает значительного влияния на производительность в других конфигурациях. Например в одном докладе из этой конференции, при вычислении размеров буферов самоподобием VBR-трафика в сетях ATM можно пренебречь, другом докладе показано, что во многих случаях наличие самоподобия либо в интервалах между поступлениями данных, либо во времени обслуживания может иметь драматическое воздействие на производительность очередей.

Самоподобный трафик прикладного уровня формируется источником, проявляющим свойство самоподобия в широком диапазоне временной шкалы без какого-либо взаимодействия с сетью.

Самоподобный трафик сетевого уровня проявляет свойства самоподобия в широком диапазоне временной шкалы в результате многочисленных взаимодействий с сетью.

Page 27: Самоподобный трафик

Хорошим примером является ТСР-трафик. Это отличие важно по нескольким причинам. Во-первых при расчетах размеров буферов самоподобием VBR-трафика часто можно пренебречь. Таким образом, с самоподобным трафиком прикладного уровня, по крайней мере, в некоторых случаях, можно обращаться не так, как с самоподобным трафиком сетевого уровня. Во-вторых, поскольку поведение самоподобного трафика прикладного уровня остается в большой степени независимым от текущего состояния сети, этим трафиком можно эффективно управлять в контексте управления доступом и выделения ресурсов для гарантирования требуемого класса обслуживания. С другой стороны, самоподобный трафик сетевого уровня изменяет свое поведение в зависимости от нагрузки, схемы повторной передачи (различных версий протокола TCP) , количества конкурирующих пользователей, размеров запрашиваемых (в Паутине или по FTP) файлов и т. д. Все это усложняет эффективный расчет трафика для таких источников. Насколько важно это различие между сетевым и прикладным уровнями на практике, является предметом продолжающихся исследований.