Мониторинг: методики, модели, оценки

next previous contents 

5 Предварительный анализ исходных данных суточного трафика

Исходные данные трафика позволяют понять структуру загрузки телекоммуникационного канала. Рассмотрим несколько типичных ситуаций и поясним, как в каждой из них можно интерпретировать простейшие описательные статистики трафика.

Слабозагруженные каналы. На рис.2 изображены два варианта типичного трафика слабозагруженного канала. Сразу отметим, что в данном примере нет попытки сравнить между собой два указанных канала, так как в случае канала Москва-Нижний Новгород приводятся данные выхода канала (Output), которые косвенно говорят об интенсивности работы сети в самом Нижнем-Новгороде. Данные по каналу Москва-Екатерининбург (Input) показывают интерес внешних пользователей сети к информации, представленной на серверах Екатеринбурга.

Рис.2. Однодневные трафики каналов: а) Москва-Нижний Новгород (Output) 30 августа 1996 г.; б) Москва-Екатеринбург (Input) 22 августа 1996 г.}

График на рис.2а показывает, что кратковременные запросы (всплески на графике) сменяются нулевыми значениями загрузки. Учитывая, что объем пересылаемого пакета за один раз может колебаться в довольно широких пределах, подобный трафик говорит, что в сети работает всего небольшое число пользователей, которые естественно не способны обеспечить постоянную загрузку канала в режиме, который он допускает. 12 пиков представленных на этом графике отражают работу режима общесетевого накопления и передачи новостей один раз в два часа и так же не свидетельствуют об активности пользователей в Нижнем Новгороде.

График на рис.2б показывает, что при относительно небольшой максимальной загрузке канала, эта загрузка весьма равномерна, то есть подобный трафик отражает работу значительно большего числа пользователей, чем в предыдущем случае.

Сравним простейшие описательные статистики рядов на графиках рис.2а и рис.2б. Среднее значение для графика 2а равно 11.51 кбит/с, для графика 2б 8.87 кбит/с. Эти значения довольно близки, однако, как уже отмечалось, за ними стоят трафики совершенно различной структуры. Таким образом, среднесуточное значение трафика слабозагруженного канала само по себе слабо отражает реальную загрузку канала. Дисперсия среднесуточных данных для графиков 2а и 2б равна соответственно: 420 и 22.1. То есть отличается почти в 20 раз.

Еще одной полезной оценкой среднесуточного поведения трафика может являться медиана. Сравнение значения медианы со средним значением показывает стабильность загрузки канала. Так, например, значения медианы для графиков 2а и 2б равны соответственно 1.0 и 8.5 кбит/с. По смыслу своего определения медиана допускает следующее истолкование. Если значение среднесуточной медианы равно 1 кбит/с, то это означает, что в течении половины суток канал был загружен не более чем на 1 кбит/с (при среднесуточном уровне загрузки 11.51 кбит/с). Для сравнения заметим, что для графика 2б медиана и среднесуточное значение загрузки канала различаются очень мало, что (см. соотношение дисперсий) указывает на относительную стабильность работы канала.Разобранный нами типичные примеры трафиков слабозагруженных каналов позволяют сделать несколько предварительных выводов.

Во-первых, среднесуточный показатель загрузки канала довольно слабо (малоинформативно) отражает реальную картину работы канала в течении суток и его использование в задачах прогноза развития канала зависит от ряда других характеристик, например, дисперсии.

Во-вторых, большая дисперсия загрузки при небольшом среднем уровне и еще меньшем значении медианы свидетельствует о довольно неравномерной загрузке канала, за которой чаще всего стоит незначительное число пользователей, неразвитая инфраструктура сетевого сегмента, использующего канал.

Среднезагруженные каналы. На рис.3 изображен один из вариантов типичного трафика среднезагруженного канала. Приведенные на графике данные относятся к выходу канала Москва-Париж, емкость которого составляет 256 кбит/с и показывают интенсивность поступления информации (включая запросы и данные) из Москвы в Париж.

Рис.3. Однодневный трафики канала Москва-Париж (Output): а) 7 сентября 1996 г.; б) 9 сентября 1996 г.}

Приведем значения описательных статистик для трафиков на рис.3а и 3б. Среднесуточная загрузка канала в разные дни составила 61.1 и 101.8 кбит/с. соответственно. Среденесуточные медианы равны 56 и 99 кбит/с. Дисперсии - 894.8 и 1175. Заметим, что значения средних арифметических и медиан для этих каналов практически совпадают. Разброс загрузки каналов (дисперсия) также довольно устойчив как внутри суток, так и для разных суток. Возникает вопрос: чем может быть объяснено заметное (почти вдвое) различие среднесуточной загрузки канала. Укажем две возможные объективные причины такого различия. Первая из них связана с тем, что в разные дни недели канал может быть загружен по-разному. Так график 3а соответствует субботе, а график 3б - понедельнику. Это наиболее вероятное объяснение. Исследования показали, что при анализе трафиков многих каналов необходимо делать поправки на еженедельные колебания трафика.

Второй объективной причиной расхождений среднесуточных значений загрузки может являться наличие в трафике трендов или интервенций. Тренд при этом отражает общий объективный рост загрузки канала во времени. (В данном случае эта причина вряд ли возможна, так как трафик приведен с интервалом 2 дня.) Интервенция соответствует неожиданному изменению обычных условий работы канала. Например, подготовку и проведение крупной видеоконференции можно рассматривать со статистической точки зрения как интервенцию. Разовое подключение к каналу новой крупной группы абонентов также можно рассматривать как интервенцию.

Повышение или понижение нагрузки канала в различные часы суток, довольно хорошо заметное на рис.3 может быть связано с часовыми колебаниями загрузки канала

Сильнозагруженные каналы. На рис.4 изображены два варианта типичного трафика сильнозагруженного канала. По смыслу, приведенные на этом графике данные отражают интенсивность загрузки канала на направлении из Парижа в Москву. Сравнивая рис.3 и рис.4 можно сделать вывод о том что загрузка канала асимметрична. То есть объем информации, идущей в одном направлении (скажем из Парижа в Москву (рис.4)) может значительно превышать объем информации, идущей в обратном направлении. Для канала Москва-Париж интенсивность поступления информации из Парижа в Москву примерно вдвое превышает число, характеризующее обратное поступление. В целом заметная асимметрия загрузки характерна для всех рассматриваемых нами каналов. Она имеет прямое объяснение. Пользователи сети активнее обращаются туда, где можно найти что-либо интересное и полезное. В этом смысле Парижский узел, обслуживающий транзит в Глобальный Internet, обеспечивает потребность пользователей в богатой информации, размещенной на зарубежных серверах.

Приведенные данные говорят о необходимости и целесообразности организации асимметричных каналов, более отвечающих реальным потребностям сетевой инфраструктуры.

Рис.4. Однодневные трафики канала Москва-Париж Input, кбит/с: а) - 17 августа 1996г.; б) - 12 октября 1996г.}

Графики на рис.4 показывают, что значительную часть времени (дневные и вечерние часы) канал находится на максимуме своей загрузки. Некоторое снижение нагрузки происходит в ночные часы. При этом разброс загрузки канала в дневные часы существенно меньше чем в ночные. Это свидетельствует о достаточно устойчивой очереди на обслуживание в дневные часы. Подобные различия в разбросе значений загрузки канала в разное время суток существенно затрудняют статистический анализ, требуя использования факторных моделей с взвешиванием наблюдений. Приведем значения среднесуточных статистик для графиков 4а и 4б. Средние значения загрузки каналов равны соответственно: 206.3 и 228.1 кбит/с, что составляет 80 и 89% от емкости канала.

Дисперсии загрузки каналов равны соответственно: 3492 и 1994, а медианы: - 238 и 250 кбит/с.

Среднесуточное значение трафика (и его статистические характеристики) подобного сильно загруженного канала может вводить в заблуждение неспециалиста. За счет усреднения значений трафика, полученных в различных условиях, происходит определенное занижение реальной загрузки канала в наиболее загруженные часы. При этом может складываться впечатление, что у загрузки канала есть еще резервы роста, когда на практике их уже нет. Более того трафики, приведенные на рис.4 скорее свидетельствует, что определенная часть пользователей в течении двух третей суток оказывается неудовлетворенной. Так, по нашим оценкам, если среднее суточное значение загрузки канала составляет 70% и более, то комфортная работа с большими объемами данных в сети в дневные часы довольно затруднена.

Рис.4а и 4б ярко иллюстрируют наличие суточных колебаний загрузки канала. Спады загрузки приходятся на ночные часы. Именно эти естественные спады занижают представление о реальной загрузке канала большую часть суток, если в качестве оценки среднесуточной загрузки используется среднее арифметическое. Обратим внимание на то, что при использовании среднесуточной медианы в качестве оценки загрузки канала мы получаем более адекватное представление. Это связано с тем, что медиана гораздо более устойчивая оценка, чем среднее арифметическое.Дисперсия загрузки канала в ночные часы гораздо больше чем в дневные. Таким образом, среднесуточная дисперсия загрузки канала также не дает представления об устойчивости высокой загрузки канала.В терминах теории временных рядов перечисленные выше эффекты говорят о том, что во многих случаях для описания трафика надо использовать модели нестационарных рядов с сезонными компонентами и разновзвешенными наблюдениями.

next previous contents