Мониторинг: методики, модели, оценки
4 Предварительная обработка исходных данных трафика
Программа опроса загрузки канала формирует исходные файлы суточного трафика для входа и выхода канала. Теоретически в подобных суточных файлах при частоте опроса канала один раз в четыре минуты должно содержаться 360 наблюдений. Соблюдение этого требования является одной из важнейших предпосылок всего дальнейшего анализа. Нарушение требования равномерности регистрации данных трафика влечет за собой накопление значительных временных сдвигов наблюдений и делает их несопоставимыми между собой. Данные с подобными сдвигами не поддаются корректной обработке, когда необходимо учитывать различные сезонные эффекты в виде суточных и еженедельных колебаний трафика.
К сожалению, до половины файлов суточных трафиков не отвечают этому требованию. Чаще всего в них содержится чуть меньшее число наблюдений: 359, 358, 357, 356. Основной причиной этого является то, что при некоторых штатных режимах работы (например, при перезагрузке и обновлении таблиц маршрутизатора) процессор не выдает ответ на запрос о загрузке канала. Другой причиной неравномерной записи трафика являются технические сбои и перезагрузка компьютера. При этом пропуски в записи данных трафика могут составлять от получаса до нескольких часов.
Таким образом значительная часть (до 50%) исходной информации, выдаваемой программой регистрации загрузки канала, нуждается в определенной коррекции. Подобную коррекцию, учитывая объемы обрабатываемой информации, желательно проводить в автоматическом режиме.
Из сказанного выше вытекают очевидные требования к программе первичной обработки суточных трафиков. Она должна уметь автоматически:
·
идентифицировать оба, перечисленных выше, типа нарушения равномерности регистрации данных;·
выдавать общую статистику типов нарушения равномерности регистрации данных;·
уметь экстраполировать пропущенные значения согласно алгоритму, указанному оператором.Создание алгоритмов автоматического распознавания различных типов нарушения равномерности регистрации данных и восстановления пропущенных значений требуют высокой квалификации и использования различных статистических процедур.
Статистика продолжительности сбоев в работе канала позволяет судить о надежности работы аппаратуры и качестве технического обслуживания канала.
Программа предварительной обработки данных так же должна включать вычисление простейших описательных статистик: среднего арифметического, дисперсии или стандартного отклонения, медианы и др. Однако, как будет показано ниже, интерпретация этих усредненных данных зависит от степени загрузки канала. Так же будет показано, что во многих ситуациях использование только перечисленных выше статистик явно недостаточно и не правомерно. Для описания трафика приходится привлекать гораздо более сложные модели временных рядов, включающие тренды, сезонные и факторные компоненты и т.п.