;
Мониторинг: методики, модели, оценки
УДК 519.2
А.А. Макаров, Г.И. Симонова (г. Москва
)Статистическая модель внутрисуточных колебаний
скорости передачи данных пользователям компьютерных сетей
Введение
Стремительное развитие сетевой активности в России в условиях ограниченных возможностей сетевой инфраструк туры вызывает повышенный интерес к поведению базовых показателей функционирования компьютерных сетей. Одним из важнейших таких по казателей является скорость передачи данных конечным пользователям. Под этой величиной мы понимаем отношение количества переданно й информации (в байтах) к суммарному времени передачи информации по всем соединениям за фиксированный промежуток времени. Таким образом, речь идет об усредненной скорости передачи данных конечным пользователям за выбранный промежуток времени. Причем усреднение ведется не только за промежуток времени, но и по всем пользователям, использовавшим сеть в этот промежуток времени. Представление об этой величине и ее изменчивости важно и сетевым администраторам, и конечным пользователям сетей. Последние при этом пол учают возможность корректировать свою сетевую активность с учетом возможностей сети в данный момент.
В настоящей работе будет рассмотрено статистическое поведение скорости передачи данных конечным сетевым пользователям в России на канале RBnet-Teleglobe. Этот канал в последние годы предоставляет доступ в мировую сеть Internet большинст ву научно-образовательных сетей России. Работы по изучению скорости передачи данных на этом канале являются одной из задач мониторинга Российских научно-образовательных сетей в рамках проекта 3.3.1 Межведомственной программы "Создание национальной сети к омпьютерных телекоммуникаций для науки и высшей школы".
Для двух разных режимов функционирования канала RBnet-Teleglobe будет введена однофакторная статистическая модель, описывающая почасовое изменение скорости передачи данных в течение суток. В качестве 24 уровней фактора в этой модели рас сматриваются различные часы суток. Для выяснения локальной устойчивости этой модели в течение времени (нескольких суток) далее рассматривается расширенная двухфакторная линейная модель, в которой с помощью знаковых методов анализа осуществляется проверка гипотезы об отсутствии влияния эффекта суток. Далее проводится устойчивая статистическая оценка и сравнение эффектов факторов в исходных однофакторных моделях для различных режимов функционирования канала. В работе также обращается внимание на не гауссовс кий характер отклонения данных от введенной модели.
Материалы
На рис. 1 представлен типичный для буднего дня график усредненной за 5 минут скорости передачи данных конечным пользователям в России на канале RBnet-Teleglobe в течение суток (данные за 21.01. 00). Из графика видно, что близкие по времени 5-ти минутные средние значения подвержены сильным колебаниям (до 50% от среднего значения) и что скорость передачи данных в целом снижается почти вдвое в дневные часы по сравнению с ночными. Причины подобных внутрисуточных колебаний в значительной мере определяются и числом пользователей канала в различные часы суток, и самой структурой сетевых задач, которая также варьируется в течение суток. В настоящей работе мы не будем касаться характера влияния этих и других причин на скорость передачи данных.
Рис.1. Средняя за 5 минут скорость передачи данных
на входе канала RBNet-Teleglobe (по данным за 21 января 2000 г.)}
Для нас будет важно установление локальной устойчивости среднечасовой скорости передачи данных в течение некоторого времени и выяснение как на этот показатель влияет емкость канала. Для этого м ы рассмотрим среднечасовые скорости передачи данных для двух различных емкостей канала (6 и 8 Mbit/sec) за 10 последовательных суток (с 8.12.99 по 17.12.99 для емкости канала в 6 Mbit/sec и с 19.01.00 по 28.01.00 для 8 Mbit/sec). (Переключение канала RBNe t-Teleglobe с 6 до 8~Mbit/sec было
проведено 20.12.99). Соответствующие графики представлены на рис. 2. При этом жирной линией на графике выделена скорость в будние дни, а тонкой- в выходные и праздничные дни. При подборе данных для анализа мы руководствовались стремлением показать, как ведет себя исследуемый показатель в различных ситуациях, включая и технологические сбои в работе канала 24.01.00 и 26.01.00. Из приведенных графиков на рис. 2 вид но, что в характере изменения среднечасовой скорости в будние дни присутствует некоторая закономерность, которая нарушается в вых одные и праздничные дни. Это объясняется заметным сокращением числа пользователей сети в эти дни, что порождает другую, менее уст ойчивую картину поведения скорости. В дальнейшем мы сосредоточим свое внимание только на анализе данных в будние дни.
Рис.2. Среднечасовая скорость передачи данных
на входе канала RBnet-Teleglobe:а) по данным за 8-17 декабря 1999 г. при емкости канала 6 Mbit/sec;
б) по данным за 19-28 января 2000 г. при емкости канала 8
Mbit/secПостановка задачи
Данные, представленные на рис.2, по своей структуре являются временными рядами,
подверженными сезонным (внутрисуточным) колебаниям . Однако, учитывая соотношение периода усреднения данных (1 час) со средним временем одного соединения на данном канале (нескольк о секунд), есть основания предполагать, что они могут быть описаны либо стандартной однофакторной моделью (если отсутствует эффек т суток), либо двухфакторной (или более сложными) линейной моделью (если эффект суток присутствует). По сути, адекватность однофа кторной модели для описания средней скорости в будние дни означает локальную стабильность этого показателя и его зависимость толь ко от времени суток. Последнее означает, что правомерно сравнение средних скоростей передачи данных для различных емкостей канала в одни и те же часы.Ниже к исследуемым данным будет применена двухфакторная линейная модель.
Для этой модели будет проверена гипотеза об отсутствии влияния эффекта суток. FONT>Также будет обращено внимание на правомерность использования как самой модели, так и выбранных методов оценки ее параметров.Модели и методы исследования
Обозначим через
Заметим, что мы не предполагаем нормального распределения случайных отклонений, так как есть основания сомневаться в этом. Проверим однородность изменения среднечасовых скоростей за несколько с ледующих подряд будних суток. Однородность данных по суткам можно выразить в виде нулевой гипотезы
т.е. в отсутствии эффекта суток. Как видно из рис. 2, в данных присутствуют выбросы. Применение к таким данным стандартного метода наименьших квадратов может привести к неверным результатам. По этому для проверки сформулированной гипотезы применим знаковый метод анализа, который приводит к устойчивым
по отношению к выбросам результатам. Как выведено в [1], знаковая статистика для проверки нулевой гипотезы с точностью до множителя совпадает с числителем F-статистики для проверки такой же гипотезы в гауссовском случае (когда ошибки в модели (1) - гауссовские), если заменить на блюдаемые величины их знаками. Согласно [1] знаковый критерий для проверки сформулированной гипотезы можно записать в виде:где
-
где независимые случайные величины
Для вычисления критических точек
Результаты
Применение знакового критерия (4) для 3-х подряд идущих рабочих суток
19-21 января 2000 г., изображенных на рис. 2б, показало, что нулевая гипотеза (3) не отвергается на уровне значимостиВ табл. 1 приведены оценки суммы параметров
Таблица 1
Средние скорости передачи данных ( на входе канала RBNet-Teleglobe при двух емкостях канала, вычисленные по 3-м и 6-ти суткам}
Номер часа |
6 Mbit/sec по 3-м суткам |
8 Mbit/sec по 6-м суткам |
8 Mbit/sec по 3-м суткам |
1 |
445.3 |
579.4 |
575.9 |
2 |
436.3 |
616.0 |
606.7 |
3 |
506.7 |
646.7 |
643.0 |
4 |
535.9 |
675.8 |
679.7 |
5 |
493.9 |
670.5 |
668.5 |
6 |
455.7 |
631.7 |
636.2 |
7 |
451.6 |
599.9 |
599.8 |
8 |
411.3 |
574.2 |
571.8 |
9 |
367.6 |
523.6 |
508.9 |
10 |
328.2 |
428.8 |
431.4 |
11 |
310.7 |
388.3 |
392.2 |
12 |
288.3 |
377.9 |
375.6 |
13 |
284.8 |
367.5 |
364.0 |
14 |
282.5 |
343.2 |
354.1 |
15 |
283.7 |
349.6 |
350.6 |
16 |
278.5 |
345.6 |
346.4 |
17 |
273.9 |
352.0 |
349.6 |
18 |
285.8 |
381.5 |
373.4 |
19 |
303.7 |
390.2 |
396 |
20 |
329.3 |
445.7 |
443.5 |
21 |
364.4 |
489.3 |
482.0 |
22 |
411.7 |
546.9 |
536.7 |
23 |
462.8 |
572.0 |
571.3 |
24 |
463.5 |
566.9 |
563.4 |
Рис. 3. Остатки после подгонки модели (7), представленные на нормальной вероятностной бумаге, по данным 6-ти суток при емкости канала 8 Mbit/sec
Аналогичные графики получаются и в двух других случаях. Из графика видно, что распределение остатков заметно
отличается от нормаль ного и имеет более тяжелые "хвосты", чем нормальное распределение. Подобные проблемы весьма характерны для различных характеристик трафиков компьютерных сетей (см. [2], [3]). В подобных ситуациях стандартные методы дисперсионного анализа теряют свою оптимальность, предоставляют неверные оценки разброса оцениваемых параметров и могут приводить к грубым ошибкам в оценках в случае наличия в данных нехарактерных значений. Примеры подобных ситуаций приведены в [1]. Таким образом, использование знакового метода оценки параметров модели представляется предпочтительным.В случае неизвестного, не гауссовского распределения ошибок установить
их независимость чисто статистическими методами не представляется возможным. Тем не менее полезно уста новить хотя бы некоррелированность ошибок в рассматриваемых моделях. На рис. 4 приведены автокорреляционные функции остатков и их доверительные трубки для моделей, полученных для данных 3-х (рис. 4а)) и 6-ти (рис. 4б)) суток при емкости канала в 8 Mbit/sec.
Рис. 4. Автокорреляционные функции остатков после подгонки модели (7)
а) по данным за 19-21 января 2000 г.;
б) по данным за 19-21, 25, 27, 28 января 2000 г.
Из приведенных графиков видно, что остатки можно считать практически не коррелированными. Это факт наряду с априорными представлениями о процессе формирования исследуемой характеристики позволя ет рассчитывать, что используемые методы проверки гипотез и оценки параметров вполне адекватны.
Обсуждение
Таким образом, можно считать установленным факт локального постоянства во времени среднечасовой скорости передачи данных конечным пользователям компьютерных сетей и пригодность использования дл я описания этой характеристики
однофакторной модели. Следовательно, можно говорить об осмысленном сравнении среднечасовой скорост и передачи данных при различных емкостях канала. На рис. 5 изображены среднечасовые скорости передачи данных при двух емкостях ка налов 6 Mbit/sec и 8 Mbit/sec, полученные после оценивания соответ ствующих параметров
Рис. 5. Изменение скорости передачи данных
на входе канала RBNet-Teleglobe при двух емкостях каналаКак видно из этого рис.
5 и табл. 1, при изменении емкости канала FONT> скорость передачи данных изменилась не равномерно в ночные и дневные часы. При изменении емкости канала с 6 Mbit/sec до 8 Mbit/sec , емкость фактически выросла на 1/3. При этом скорость передачи данных конечным пользователям в ночные часы также выросла примерн о на 1/3, а в дневные часы - только на 1/4.Использованные в работе знаковые методы проверки гипотез и оценивания параметров в целом можно использовать и в ситуациях, когда в данных присутствуют нехарактерные значения. В нашем случае в качестве подобных значений можно рассматрива ть наблюдения 24.01.00 и 26.01.00 (см. рис. 2б)), соответствующие техническим сбоям в работе канала. Расчеты показали, что и на массиве данных с 19.01.00 по 22.01.00 и с 24.01.00
по 29.01.00 з наковый критерий проверки гипотезы об отсутствии эффекта влияния суток в двухфакторной модели также не позволяет отвергнуть нулевую гипотезу при 5% уровне значимости. Однако построение автокорреляционной функции остатков для этого массива наблюдений приводит уже к довольно заметной автокорреляции соседних остатков (Библиографический список
1. Болдин М.В., Симонова Г.И., Тюрин Ю.Н. “Знаковый статистический анализ линейных моделей”, М.: Наука, 1997.
2. Макаров А.А., Симонова Г.И. “Проблемы робастного оценивания статистических моделей суточных трафиков магистральных каналов компьютерных сетей”,
Статистические методы оцен ивания и проверки гипотез. Пермь.: Перм. гос. ун-т., 1999. N 13.3. Макаров А.А., Симонова Г.И., Ковба Н.Л. “Закономерности изменения загрузки магистральных каналов компьютерных сетей”, Автомат ика и телемеханика}. 2000. N 12.