Мониторинг: методики, модели, оценки
9.2 Анализ сезонной компоненты
Для оценки и удаления сезонных эффектов могут использоваться различные методы. Их выбор обычно диктуется подбираемой моделью временного ряда. Если модель временного ряда включает только тренд и сезонную компоненту, то для оценки тренда можно сначала применить метод наименьших квадратов, а затем оценить сезонные эффекты, рассматривая отклонения исходного ряда от подобранной модели тренда. Удалить тренд и сезонную компоненту из временного ряда можно также используя простые и сезонные разностные операторы.
Если подбираемая модель ряда кроме тренда и сезонной компоненты включает еще и циклическую компоненту, то для оценки сезонных эффектов сначала вычисляется оценка тренда и циклической компоненты с помощью процедуры скользящего среднего. Затем, рассматривая отклонения исходного ряда от подобранного ряда скользящих средних, оцениваются сезонные эффекты.
Рассмотрим использование процедуры скользящего среднего на примере двух трафиков. В первом из них величина интервала сглаживания будет нечетной, равной семи дням недели. Во втором примере величина интервала сглаживания четная, соответствующая двадцати четырем часам. Подобные интервалы сглаживания наиболее типичны для исследуемых временных рядов.
На рис.19а приведен среднесуточный трафик канала Москва-Париж (Output) за четыре последовательных недели. Из графика видно, что в отдельные дни недели (субботу и воскресенье) происходит уменьшение загрузки канала, в другие дни загрузка повышается. Кроме того, вероятно, имеет место плавный рост объема загрузки с течением времени. Таким образом, можно предположить, что рассматриваемый временной ряд имеет тренд и сезонную компоненту с периодом сезонности =7 дней.
Рис.19. Среднесуточный трафик в Кбит канала Москва-Париж Output (5.02-3.03.96) а) исходный ряд; б) его скользящее среднее}
Второй пример - среднечасовые данные канала Москва-Новосибирск за 21 день. На графике этого ряда (рис.20а) отчетливо прослеживаются сезонные колебания ряда со спадами в ночные часы. Период сезонности этих данных равен 24.
Рис.20. Среднечасовой трафик в Кбит канала Москва-Новосибирск (Input) (23.09-13.10.96) а) исходный ряд; б) его скользящее среднее
Сначала дадим определение скользящего среднего для нечетных размеров длины интервала сглаживания . (В нашем примере
=7. Величину интервала сглаживания целесообразно выбирать равным или кратным периоду сезонности. При этом каждый интервал вычисления скользящего среднего будет содержать данные, отвечающие всему периоду (периодам) сезонности.)
Рассмотрим среднее арифметическое первых семи () значений ряда на рис.19а (
=
.
Далее сдвинемся на единицу времени вперед и рассмотрим среднее арифметическое следующих семи () значений (
=
.
Продолжая далее эту процедуру, мы можем сопоставить каждому члену исходного ряда (за исключением первых и последних членов) значение
. Полученный таким образом ряд
Определение скользящего среднего для четных значений несколько сложнее. Это связано с тем, что вычисленное, по указанным выше формулам, среднее значение нельзя сопоставить конкретному наблюдению исходного ряда. А это сильно осложняет дальнейшее выделение сезонных эффектов. Действительно, формально вычисляя среднее значение среднечасовых данных за первые 24 часа, его надо по смыслу сопоставить времени с 11.30 до 12.30. Для избежания подобных несоответствий прибегают к следующему приему. Четное значение величины интервала усреднения
увеличивают на единицу, переходя к
. В этом случае, в рассматриваемом примере на первом шаге будет происходить усреднение по 25 часам, причем данные за 1-й час будут представлены дважды. Чтобы избавиться от смещения скользящего среднего, вызванного двойным учетом одного и того же часа, данные этого часа берутся с весом 1/2. Полученный результат приписывается часу с номером
, то есть тринадцатому часу на первом шаге. Описанный алгоритм на первом шаге выражается следующей формулой:
=
(
+
+…+
+
).
На шаге с номером получаем:
=
(
+
+…+
+
). (1)
Выражение (1) задает величину простого скользящего среднего для
Скользящее среднее показано на рис.19б.
Перейдем к вычислению сезонных эффектов (индексов) с использованием процедуры простых скользящих средних.
Обозначим через величину периода временного ряда. Под величиной [
/2] будем понимать целую часть от деления
пополам. Для простоты изложения обозначим исходный временной ряд с отброшенными [
/2] исходными и конечными значениями через
-
при
(2)
Другими словами, анализируя, например, часовые данные следует рассмотреть отклонения значений всех данных за первый час от соответствующих скользящих средних.
В качестве простейшей оценки сезонной компоненты в момент времени в аддитивной модели временного ряда
можно рассматривать среднее арифметическое отклонений (2), то есть величину:
(3)
Если в совокупности (2) присутствуют резко выделяющиеся элементы, то среднее арифметическое (3) можно заменить на медиану совокупности или на цензурированное среднее, откинув одно или несколько выделяющихся значений.
Для мультипликативной модели временного ряда вместо совокупности (2) рассматривают совокупность (4) частных от деления
на
, выраженных в процентах.
при
(4)
В этом случае оценкой сезонной компоненты или сезонным индексом называют величину:
(5)
На практике считается, что оценки сезонных эффектов недостаточно точны, если число периодов в исследуемом сезонном временном ряде, меньше шести.
Применим описанную процедуру к нашим трафикам, предполагая аддитивный характер ошибки. На рис.21а приведен график сезонных индексов семи дней недели для трафика с рис.19а, а на рис.22а график сезонных индексов 24 часов для трафика с рис.20а.
Рис.21. График сезонных индексов для временного ряда с рис.19а рассчитанных: а) с использованием процедуры скользящего среднего; б) как среднее отклонение от среднего значения всего ряда}
Вспомним, что мы уже пытались учитывать сезонные эффекты и вычисляли профиль суток (среднее значение временного ряда плюс сезонный индекс), усредняя данные отдельно по каждому часу. Графики сезонных индексов, рассчитанных подобным образом, приведены на рис.21б и рис.22б. Насколько корректна была подобная процедура? Фактически мы вместо отклонений от соответствующего скользящего среднего брали отклонение от среднего значения ряда. Из этого следует, что наша оценка являлась достаточно точной при отсутствии во временном ряде тренда и циклической компоненты, когда значения скользящего среднего практически одинаковы и близки к среднему значению всего ряда. Чем больше тренд, тем больше возможная ошибка. Как видно из графиков рис.21 для трафика с рис.19, имеющего видимый тренд, без использования процедуры скользящего среднего мы получили бы искаженное представление о сезонных колебаниях. Хотя погрешности
в расчетах могут компенсировать друг друга и в результате как на рис.22 мы получим очень похожие результаты.Рис.22. График сезонных индексов для временного ряда с рис.20а рассчитанных: а) с использованием процедуры скользящего среднего; б) как среднее отклонение от среднего значения всего ряда}
Удаление сезонной компоненты. Получив оценки сезонных эффектов (2) в аддитивной модели легко провести удаление этих эффектов из рассматриваемого ряда, вычитая их из начальных значений ряда. Подобная процедура часто носит название сезонного выравнивания ряда или сезонной коррекции ряда. Еще одно название этой процедуры сезонная декомпозиция
.Рис.23. График временного ряда с рис.20а после удаления сезонной компоненты
Для мультипликативной модели эта процедура сводится к делению значений исходного ряда на соответствующие сезонные индексы.
На рис.23 показан результат удаления из ряда с рис.20а сезонной компоненты ( рис.22а). При этом стандартное отклонение ряда снизилась с 16 до 13, что позволяет делать более точные прогнозы поведения ряда.