Мониторинг: методики, модели, оценки

next previous contents 

6.3 Среднесуточные многодневные трафики

Для более грубого и обобщенного анализа динамики трафика можно осуществлять переход к показателю среднесуточной загрузки канала или медиане суток. Располагая различным запасом устойчивости к резким колебаниям, эти два показателя оказываются одинаково полезны для анализа.

Выше, анализируя трафики каналов с разной степенью загрузки, отмечалась та неопределенность, которая может скрываться за среденесуточными показателями. О них следует постоянно помнить при интерпретации полученных результатов. Вместе с тем, с точки зрения долговременного прогноза, среднесуточные показатели являются наиболее простыми для статистического анализа. На рисунках 10 и 11 приведены среднесуточные трафики для канала Москва-Новосибирск для данных графиков 8 и 9 соответственно.

Рис.10. Среднесуточный трафик десяти последовательных недель канала Москва-Новосибирск (Input)

Рис.11. Среднесуточный трафик десяти последовательных недель канала Москва-Новосибирск (Output)

Не вдаваясь в подробности, наметим здесь основные, возможные подходы для анализа динамики загрузки каналов.

На рис.11 довольно заметно прослеживается общий рост загрузки выхода исследуемого канала. В качестве одного из методов оценки тренда подобного ряда может быть использован регрессионный анализ. На рис.12 приведена оценка линейного тренда загрузки канала стандартным методом наименьших квадратов. При этом оценка прироста среднесуточной загрузки канала составил 0.335 кбит/с в сутки. Это значит, что среднесуточная загрузка канала за месяц возрастает примерно на 10 кбит/с. Дальнейший анализ остатков в этой линейной модели показал, что соседние значения остатков довольно сильно коррелированы. Исследования показали, что для описания остатков можно использовать модель авторегрессии первого порядка.

При использовании стандартных регрессионных методов для оценки тренда трафика приходится сталкиваться с рядом серьезных проблем. Главная из них - неустойчивость этих методов даже к небольшому числу типичных для трафика резких спадов или всплесков. Есть несколько путей преодоления этих препятствий. Один из них - удаление из обработки подобных выбросов. Недостатком этой процедуры является волюнтаризм бракования и выброса наблюдений. Другой возможный путь - использование процедур взвешенной регрессии, где в качестве весов могут быть использованы оценки среднесуточной дисперсии. При этом мы фактически говорим, что наблюдениям с большой дисперсией мы доверяем мало, а наблюдениям с малой дисперсией - гораздо больше. Наконец, самым перспективный путь - использование устойчивых (робастных) алгоритмов оценивания.

В качестве примера необходимости учета, перечисленных выше проблем, приведем результаты анализа тренда среднесуточных данных входа канала Москва-Париж. На рис.13 приведены в виде точек среднесуточные данные этого трафика за два месяца, а сплошной линией изображен подобранный линейный тренд. Под графиком указаны оценки коэффициентов линейной модели, их стандартные ошибки и значимость отличия коэффициентов от нуля. Для подбора модели тренда здесь использовался стандартный метод наименьших квадратов.

Рис.12. Модель линейного тренда для среднесуточного трафика канала Москва-Новосибирск (Output)

 

Рис.13. Модель линейного тренда для среднесуточного трафика канала Москва-Париж (Input)

 

Как видно из результатов расчетов, значение оценки коэффициента B1 при линейном члене модели равно 0.179, а его стандартная ошибка равна SE=0.118. То есть можно считать, что указанный коэффициент значимо не отличается от нуля, что означает отсутствие значимого роста объема трафика. Обратим внимание на то, что четыре точки на графике рис.13 сильно отличаются от всех остальных данных. Они не попадают в границы доверительной трубки регрессии, изображенной на графике пунктирными линиями. Посмотрим, как изменятся результаты вычислений, если эти точки будут исключены из обработки. Результаты расчетов приведены на рис.14. Удаленные точки на этом рисунке помечены крестиками.

Рис.14. Модель линейного тренда для среднесуточного трафика канала Москва-Париж (Input) после удаления нехарактерных наблюдений

На этом графике вместе со старой прямой тренда изображена новая прямая, имеющая более крутой наклон. Новое значение оценки коэффициента при линейном члене равно 0.315, а его стандартная ошибка - 0.09. Эти результаты говорят, что новая оценка коэффициента почти в два раза больше старой и значимо отличается от нуля. Аналогичные результаты дает и процедура устойчивого оценивания, основанная на знаковых методах. Полученная оценка коэффициента имеет следующий простой смысл. Она показывает на какую величину в среднем возрастает среднесуточный объем трафика. Приведенный пример наглядно показывает сколь внимательно и аккуратно следует проводить подобный анализ трафика. Непрофессиональный анализ трафика может приводить, как было показано выше, к качественно неверным результатам, когда скорость роста объема трафика не просто недооценивается, а считается отсутствующей. Другой подход оценки динамики тренда основан на подборе к данным моделей авторегрессии проинтегрированного скользящего среднего (ARIMA). В них в качестве средства устранения нестационарности исходного ряда используются простые и сезонные разностные операторы. На рис.15 приведен график исходных данных рис.11 и прогноз, сделанный на базе подобранной ARIMA модели порядка (2, 1, 0). Другими словами это означает, что ряд ежесуточных приростов трафика описывается моделью авторегрессии второго порядка. Полученные грубые прогнозы показывают, что довольно сильно загруженный выход канала Москва-Новосибирск довольно быстро продолжает расти и вероятно скоро окажется в ситуации, когда часть его абонентов не сможет получать устойчивое гарантированно-комфортное обслуживание в сети.

Рис.15. Прогноз среднесуточной загрузки канала Москва-Новосибирск (Output) на базе модели ARIMA(2, 1, 0)На рис.16 приведен аналогичный прогноз для данных рис.10, который сделан на базе ARIMA модели порядка (5, 1, 0).

Выше были проиллюстрированы некоторые возможные подходы к анализу динамики развития среднесуточного объема трафика различных каналов. Прогнозы сделанные на базе подобных методов несомненно полезны, но довольно грубы. Об этом свидетельствуют достаточно широкие границы доверительных интервалов прогнозов, изображенные пунктирными линиями на указанных выше графиках. Грубость прогнозов в значительной мере обусловлена разбросом показаний среденесуточных значений объемов трафика, которые хорошо видны на графиках. Возвращаясь к среднечасовым показателям трафика и учитывая различные типы сезонных колебаний этих показателей можно пытаться объяснить часть вариации наблюдений и тем самым в конечном итоге повысить точность прогноза. Поэтому мы переходим к рассмотрению колебаний загрузки трафика в течении суток.

Рис.16. Прогноз среднесуточной загрузки канала Москва-Новосибирск (Input) на базе модели ARIMA(5, 1, 0)

next previous contents