Мониторинг: методики, модели, оценки

next previous contents 

9.3 ARIMA модели

Для более точного прогнозирования поведения трафика необходимо учитывать его корреляционную структуру. В случае стационарных процессов для этого используются модели авторегрессии-скользящего среднего (ARMA). При наличии тренда необходимо либо удалить его из исходного ряда, либо подбирать к данным модели авторегрессии проинтегрированного скользящего среднего (ARIMA). В них в качестве средства устранения нестационарности исходного ряда используются простые и сезонные разностные операторы.

Приведем сначала определения моделей авторегрессии и скользящего среднего. Обозначим через - процесс белого шума.

Определение. Случайный процесс , со средним значением называется процессом авторегрессии порядка или кратко AR, если для него выполняется соотношение:

  (6)

Определение. Случайный процесс называется процессом скользящего среднего порядка (кратко MA), если для него выполняется соотношение:

  (7)

Для описания более сложных моделей введем понятие оператора сдвига назад, который мы обозначим через . Этот оператор действует следующим образом: . Аналогично действуют многочлены от . Пусть

По определению, , если:

.

Пусть

процесс белого шума,

один из процессов AR, MA и ARMA.

Определяющее AR соотношение (6) можно представить в виде

,

где

.

Соотношение (7), определяющее процесс скользящего среднего MA теперь выглядит так

,

где

.

Наконец, для процесса ARMA определяющее соотношение есть

Для описания ARIMA моделей нам потребуется переход от последовательности к ее первым разностям или разностям более высоких порядков. Первыми разностями последовательности называют последовательность , если . С помощью оператора этот переход от к выглядит так:

,

считая, что в этой формуле 1 обозначает оператор, оставляющий последовательность неизменной (тождественный оператор): .

Переход от к последовательности вторых разностей, скажем, , определяют как переход от к и затем как переход от к . Ясно, что конечный результат можно записать как

.

Таким же образом переход к разностям произвольного порядка можно записать как

.

Модель ARIMA порядков определяется соотношением:

.

Смысл параметров ARIMA процесса при анализе трафика. Чтобы понять смысл параметров ARIMA модели, которая будет использоваться для описания поведение трафика, разберем из чего складывается суточный объем передаваемой информации. Он формируется в результате работы большого количества пользователей. (При малом числе пользователей - случай слабозагруженных каналов - подбирать статистическую модель просто не имеет смысла.) У каждого из них случайным образом возникает необходимость решения определенной сетевой задачи. Можно предположить, что часть из них смогут решить эту задачу за один день, другие за два и т.д. Таким образом, суточный объем передаваемой информации формируется из задач, которые пользователи решают уже несколько дней, и задач, которые начали решаться только в данный день. Описывая трафик моделью авторегрессии порядка , предполагается, что в день с номером часть пользователей продолжают решать задачи, начатые дней назад. Модель скользящего среднего порядка применима в том случае, если объем новых задач, появившихся в данный день, зависит от объема новых задач, появившихся дней назад (при отсутствии тренда). И наконец, порядок применяемых разностей зависит от вида тренда, который мы хотим устранить. В случае линейного тренда .

Подбор параметров ARIMA процесса. Подбор параметров ARIMA модели и последующая оценка коэффициентов сложная задача, далеко не всегда имеющая однозначное решение. (И в этом случае нельзя однозначно судить о характере корреляционной зависимости.) Особенно это касается временных рядов небольшого объема. Предварительный выбор порядка AR и MA модели для процесса, сведенного к стационарному, обычно осуществляется с помощью анализа выборочной автокорреляционной функции , выборочной частной автокорреляционной функцией . При этом следует отдавать предпочтение моделям наиболее простого вида. Окончательный подбор порядка модели ARIMA процесса связан со статистической значимостью полученных коэффициентов модели и детальным изучением поведения остатков, получаемых вычитанием из исходного ряда значений подобранной ARIMA модели .

В качестве примера разберем процедуру подбора AR модели для среднесуточной загрузки канала Москва-Новосибирск (Output). Этот ряд приведен на рис.15. Так как этот ряд содержит локально-линейный тренд (см. рис.12), для перехода к стационарному процессу возьмем первые разности исходного ряда. На рис.24 и 25 приведены выборочная автокорреляционная и частная автокорреляционная функции преобразованного ряда.

Рис.24. Выборочная автокорреляционная функция для ряда первых разностей среднесуточной загрузки канала Москва-Новосибирск (Output) }

Рис.25. Выборочная частная автокорреляционная функция для ряда первых разностей среднесуточной загрузки канала Москва-Новосибирск (Output) }

В качестве предварительного порядка модели AR можно рассматривать такое число , начиная с которого все последующие оценки выборочной частной автокорреляционной функции отклоняются от нуля не более чем . То есть

, для всех . (8)

Из графика выборочной частной автокорреляционной функции видно, что только второе значение не удовлетворяет условию (8) и поэтому мы вправе рассмотреть модель авторегрессии 2-го порядка и в целом для рассматриваемого процесса можно предложить модель ARIMA(2,1,0). Выпишем эту модель в явном виде.

  (9)

Оценка коэффициентов ARпроцесса. Оценки коэффициентов AR процесса можно получить из системы уравнений Юла-Уолкера.

Решая эту систему относительно неизвестных значений параметров и подставляя вместо неизвестных значений их оценки по наблюдаемому временному ряду, получаем искомые оценки коэффициентов AR модели.

Для модели 2-го порядка решение можно выписать в явном виде.

Проделав указанные расчеты, получаем следующие значения неизвестных параметров Подставляя эти значения в (9), после соответствующих преобразований получаем для исходного ряда соотношение:

  (10)

Прогнозирование. Выражение (10) может быть использовано как для осуществления прогноза, так и для получения и дальнейшего анализа остатков модели. Для удобства записи обозначим первые 3 значения нашего ряда через . Тогда подобранное значение модели для есть

Продолжая этот итеративный процесс для можно получить все значения при и спрогнозировать дальнейшее поведение процесса на некоторое количество шагов вперед. (Обычно срок прогноза вперед не должен превышать четверти длины исходного ряда.)

Анализ остатков для позволит нам сделать вывод об адекватности подобранной модели исследуемому трафику.

Анализ остатков. Проанализируем полученные остатки, используя график выборочной автокорреляционной функции (рис.26), график выборочной частной автокорреляционной функции (рис.27) и график остатков на нормальной вероятностной бумаге (рис.28).

Рис.26. Выборочная автокорреляционная функция остатков

Рис.27. Выборочная частная автокорреляционная функция остатков

Рис.28. График остатков на нормальной вероятностной бумаге

Первые два графика говорят об отсутствии значимой корреляционной зависимости. На третьем графике остатки достаточно хорошо укладываются на прямую линию, что свидетельствует о нормальности распределения. Таким образом, остатки с хорошим приближением являются белым шумом и мы можем сделать вывод, что рассматриваемая модель адекватна наблюдаемому процессу.

Прогноз поведения трафика. Выше было показано, что отклонения трафика от предлагаемой модели можно считать независимыми и нормально распределенными. Это позволяет корректно указать доверительный интервал для прогноза. На рис.29 приведен график исходных данных и прогноз, сделанный на базе подобранной ARIMA модели порядка (2, 1, 0).

Не вдаваясь в детальный анализ, приведем также аналогичный прогноз для входа канала Москва-Новосибирск (рис.10), который сделан на базе ARIMA модели порядка (5, 1, 0) (рис.30).

Рис.29. Среднесуточная загрузка канала Москва-Новосибирск (Output) с 5.08 по 13.10.96 и прогноз до 27.10.96 на базе модели ARIMA(2, 1, 0)}

Рис.30. Среднесуточная загрузка канала Москва-Новосибирск (Input) с 5.08 по 13.10.96 и прогноз до 27.10.96 на базе модели ARIMA(5, 1, 0)}

Заметим, что полученные границы доверительных интервалов прогнозов достаточно широки (они изображенные пунктирными линиями на указанных выше графиках). В значительной мере, грубость прогнозов обусловлена разбросом показаний среднесуточных значений объемов трафика, которые хорошо видны на графиках, и относительно небольшим размером выборки.

Для определения качества прогноза сравним его с реальными данными полученными за две последующие недели. На рис.31, 32 приведены соответствующие графики, на которых видно, что реальные данные хорошо укладываются в 95% доверительный интервал, а в некоторых случаях почти совпадают с прогнозом.

Рис.31. Реальная среднесуточная загрузка канала Москва-Новосибирск (Output) с 13.10 по 27.10.96 (сплошная линия) и прогноз на базе модели ARIMA(2, 1, 0) и данным предыдущих 10 недель (пунктир)

Рис.32. Реальная среднесуточная загрузка канала Москва-Новосибирск (Input) с 13.10 по 27.10.96 (сплошная линия) и прогноз на базе модели ARIMA(5, 1, 0) и данным предыдущих 10 недель (пунктир).

Выше были кратко описаны и показаны на примерах некоторые из возможных методик анализа трафиков. Они не в коей мере не исчерпывают всех возможных подходов к решению задачи, а скорее иллюстрируют возможности применения методов анализа временных рядов к изучению трафиков.

next previous contents