; УДК 519

Мониторинг: методики, модели, оценки

contents 

УДК 519.2

А.А. Макаров, Г.И. Симонова (г. Москва)

Статистическая модель внутрисуточных колебаний

скорости передачи данных пользователям компьютерных сетей

Введение

Стремительное развитие сетевой активности в России в условиях ограниченных возможностей сетевой инфраструк туры вызывает повышенный интерес к поведению базовых показателей функционирования компьютерных сетей. Одним из важнейших таких по казателей является скорость передачи данных конечным пользователям. Под этой величиной мы понимаем отношение количества переданно й информации (в байтах) к суммарному времени передачи информации по всем соединениям за фиксированный промежуток времени. Таким образом, речь идет об усредненной скорости передачи данных конечным пользователям за выбранный промежуток времени. Причем усреднение ведется не только за промежуток времени, но и по всем пользователям, использовавшим сеть в этот промежуток времени. Представление об этой величине и ее изменчивости важно и сетевым администраторам, и конечным пользователям сетей. Последние при этом пол учают возможность корректировать свою сетевую активность с учетом возможностей сети в данный момент.

В настоящей работе будет рассмотрено статистическое поведение скорости передачи данных конечным сетевым пользователям в России на канале RBnet-Teleglobe. Этот канал в последние годы предоставляет доступ в мировую сеть Internet большинст ву научно-образовательных сетей России. Работы по изучению скорости передачи данных на этом канале являются одной из задач мониторинга Российских научно-образовательных сетей в рамках проекта 3.3.1 Межведомственной программы "Создание национальной сети к омпьютерных телекоммуникаций для науки и высшей школы".

Для двух разных режимов функционирования канала RBnet-Teleglobe будет введена однофакторная статистическая модель, описывающая почасовое изменение скорости передачи данных в течение суток. В качестве 24 уровней фактора в этой модели рас сматриваются различные часы суток. Для выяснения локальной устойчивости этой модели в течение времени (нескольких суток) далее рассматривается расширенная двухфакторная линейная модель, в которой с помощью знаковых методов анализа осуществляется проверка гипотезы об отсутствии влияния эффекта суток. Далее проводится устойчивая статистическая оценка и сравнение эффектов факторов в исходных однофакторных моделях для различных режимов функционирования канала. В работе также обращается внимание на не гауссовс кий характер отклонения данных от введенной модели.

Материалы

На рис. 1 представлен типичный для буднего дня график усредненной за 5 минут скорости передачи данных конечным пользователям в России на канале RBnet-Teleglobe в течение суток (данные за 21.01. 00). Из графика видно, что близкие по времени 5-ти минутные средние значения подвержены сильным колебаниям (до 50% от среднего значения) и что скорость передачи данных в целом снижается почти вдвое в дневные часы по сравнению с ночными. Причины подобных внутрисуточных колебаний в значительной мере определяются и числом пользователей канала в различные часы суток, и самой структурой сетевых задач, которая также варьируется в течение суток. В настоящей работе мы не будем касаться характера влияния этих и других причин на скорость передачи данных.

 

 

 

Рис.1. Средняя за 5 минут скорость передачи данных на входе канала RBNet-Teleglobe (по данным за 21 января 2000 г.)}

 

Для нас будет важно установление локальной устойчивости среднечасовой скорости передачи данных в течение некоторого времени и выяснение как на этот показатель влияет емкость канала. Для этого м ы рассмотрим среднечасовые скорости передачи данных для двух различных емкостей канала (6 и 8 Mbit/sec) за 10 последовательных суток (с 8.12.99 по 17.12.99 для емкости канала в 6 Mbit/sec и с 19.01.00 по 28.01.00 для 8 Mbit/sec). (Переключение канала RBNe t-Teleglobe с 6 до 8~Mbit/sec было проведено 20.12.99). Соответствующие графики представлены на рис. 2. При этом жирной линией на графике выделена скорость в будние дни, а тонкой- в выходные и праздничные дни. При подборе данных для анализа мы руководствовались стремлением показать, как ведет себя исследуемый показатель в различных ситуациях, включая и технологические сбои в работе канала 24.01.00 и 26.01.00. Из приведенных графиков на рис. 2 вид но, что в характере изменения среднечасовой скорости в будние дни присутствует некоторая закономерность, которая нарушается в вых одные и праздничные дни. Это объясняется заметным сокращением числа пользователей сети в эти дни, что порождает другую, менее уст ойчивую картину поведения скорости. В дальнейшем мы сосредоточим свое внимание только на анализе данных в будние дни.

 

 

Рис.2. Среднечасовая скорость передачи данных на входе канала RBnet-Teleglobe:

а) по данным за 8-17 декабря 1999 г. при емкости канала 6 Mbit/sec;

б) по данным за 19-28 января 2000 г. при емкости канала 8 Mbit/sec

Постановка задачи

Данные, представленные на рис.2, по своей структуре являются временными рядами, подверженными сезонным (внутрисуточным) колебаниям . Однако, учитывая соотношение периода усреднения данных (1 час) со средним временем одного соединения на данном канале (нескольк о секунд), есть основания предполагать, что они могут быть описаны либо стандартной однофакторной моделью (если отсутствует эффек т суток), либо двухфакторной (или более сложными) линейной моделью (если эффект суток присутствует). По сути, адекватность однофа кторной модели для описания средней скорости в будние дни означает локальную стабильность этого показателя и его зависимость толь ко от времени суток. Последнее означает, что правомерно сравнение средних скоростей передачи данных для различных емкостей канала в одни и те же часы.

Ниже к исследуемым данным будет применена двухфакторная линейная модель. Для этой модели будет проверена гипотеза об отсутствии влияния эффекта суток. Также будет обращено внимание на правомерность использования как самой модели, так и выбранных методов оценки ее параметров.

Модели и методы исследования

Обозначим через среднюю за час скорость передачи данных в сутки . Тогда двухфакторная линейная модель, описывающая исследуемые данн ые, может быть записана в виде:

где - номер часа в сутках ; - номер исследуемых суток, - общее среднее значение, - эффект -го часа, - эффект -х суток, - случайные отклонения, не объясненные моделью. Для корректного исп ользования методов дальнейшего анализа мы предположим (а затем и по-возможности проверим), что величины независимы и их распределение имеет нулевую медиану, т.е.

Заметим, что мы не предполагаем нормального распределения случайных отклонений, так как есть основания сомневаться в этом. Проверим однородность изменения среднечасовых скоростей за несколько с ледующих подряд будних суток. Однородность данных по суткам можно выразить в виде нулевой гипотезы

т.е. в отсутствии эффекта суток. Как видно из рис. 2, в данных присутствуют выбросы. Применение к таким данным стандартного метода наименьших квадратов может привести к неверным результатам. По этому для проверки сформулированной гипотезы применим знаковый метод анализа, который приводит к устойчивым по отношению к выбросам результатам. Как выведено в [1], знаковая статистика для проверки нулевой гипотезы с точностью до множителя совпадает с числителем F-статистики для проверки такой же гипотезы в гауссовском случае (когда ошибки в модели (1) - гауссовские), если заменить на блюдаемые величины их знаками. Согласно [1] знаковый критерий для проверки сформулированной гипотезы можно записать в виде:

где

- медиана последовательности , а точкой зам енено усреднение по соответствующему индексу. Здесь - верхнее -значение случайной величины

где независимые случайные величины принимают значения с одинаковой вероятностью 1/2. Приведенная выше статистика критерия (4) записана для случая, когда для каждого сочетан ия уровней факторов имеем одно наблюдение.

Для вычисления критических точек в (4) был использован статистичес кий пакет SIGN, где этот алгоритм реализован. В нем вычисление распределения статистики (6) и соответствующих ему критических точ ек проводится моделированием.

Результаты

Применение знакового критерия (4) для 3-х подряд идущих рабочих суток 19-21 января 2000 г., изображенных на рис. 2б, показало, что нулевая гипотеза (3) не отвергается на уровне значимости . Локально наблюдается стаб ильное поведение скорости передачи данных. На том же уровне значимости нулевая гипотеза не отвергается и для 6-ти подряд идущих р абочих суток: 19-21, 25, 27-28 января 2000 г. (В это число мы не включили сутки, в течение которых наблюдались сбои в работе кана ла, что соответствует нулевой скорости в течение большой части суток). Аналогичная гипотеза не отвергалась на том же уровне знач имости для данных, изображенных на рис. 2а, по 3-м подряд идущим суткам (15-17 декабря 1999 г.). Однако отсутствие влияние фактора суток на скорость передачи данных можно рассматривать, вероятно, лишь как локальное свойство. А для описания более длинных отрезков времени скорее всего потребуются уже более сложные модели. Таким образом, вместо введенной двухфакторной модели (1) для опис ания исследуемых данных можно локально использовать однофакторную модель:

В табл. 1 приведены оценки суммы параметров в модели (7) для каждого из рассмотренных выше случаев. Нетрудно убедиться, что наблюдается достаточно высокое согласие результатов оценивания на 8-мегабитном канале по данным 6-ти и 3-х суток.

Таблица 1

Средние скорости передачи данных ( на входе канала RBNet-Teleglobe при двух емкостях канала, вычисленные по 3-м и 6-ти суткам}

Номер часа

6 Mbit/sec

по 3-м суткам

8 Mbit/sec

по 6-м суткам

8 Mbit/sec

по 3-м суткам

1

445.3

579.4

575.9

2

436.3

616.0

606.7

3

506.7

646.7

643.0

4

535.9

675.8

679.7

5

493.9

670.5

668.5

6

455.7

631.7

636.2

7

451.6

599.9

599.8

8

411.3

574.2

571.8

9

367.6

523.6

508.9

10

328.2

428.8

431.4

11

310.7

388.3

392.2

12

288.3

377.9

375.6

13

284.8

367.5

364.0

14

282.5

343.2

354.1

15

283.7

349.6

350.6

16

278.5

345.6

346.4

17

273.9

352.0

349.6

18

285.8

381.5

373.4

19

303.7

390.2

396

20

329.3

445.7

443.5

21

364.4

489.3

482.0

22

411.7

546.9

536.7

23

462.8

572.0

571.3

24

463.5

566.9

563.4

 

Обратимся к исследованию остатков в построенных однофакторных моделях. На рис. 3 пред ставлен график остатков на нормальной вероятностной бумаге для данных по 6-ти суткам.

 

Рис. 3. Остатки после подгонки модели (7), представленные на нормальной вероятностной бумаге, по данным 6-ти суток при емкости канала 8 Mbit/sec

Аналогичные графики получаются и в двух других случаях. Из графика видно, что распределение остатков заметно отличается от нормаль ного и имеет более тяжелые "хвосты", чем нормальное распределение. Подобные проблемы весьма характерны для различных характеристик трафиков компьютерных сетей (см. [2], [3]). В подобных ситуациях стандартные методы дисперсионного анализа теряют свою оптимальность, предоставляют неверные оценки разброса оцениваемых параметров и могут приводить к грубым ошибкам в оценках в случае наличия в данных нехарактерных значений. Примеры подобных ситуаций приведены в [1]. Таким образом, использование знакового метода оценки параметров модели представляется предпочтительным.

В случае неизвестного, не гауссовского распределения ошибок установить их независимость чисто статистическими методами не представляется возможным. Тем не менее полезно уста новить хотя бы некоррелированность ошибок в рассматриваемых моделях. На рис. 4 приведены автокорреляционные функции остатков и их доверительные трубки для моделей, полученных для данных 3-х (рис. 4а)) и 6-ти (рис. 4б)) суток при емкости канала в 8 Mbit/sec.

 

Рис. 4. Автокорреляционные функции остатков после подгонки модели (7)

а) по данным за 19-21 января 2000 г.;

б) по данным за 19-21, 25, 27, 28 января 2000 г.

Из приведенных графиков видно, что остатки можно считать практически не коррелированными. Это факт наряду с априорными представлениями о процессе формирования исследуемой характеристики позволя ет рассчитывать, что используемые методы проверки гипотез и оценки параметров вполне адекватны.

Обсуждение

Таким образом, можно считать установленным факт локального постоянства во времени среднечасовой скорости передачи данных конечным пользователям компьютерных сетей и пригодность использования дл я описания этой характеристики однофакторной модели. Следовательно, можно говорить об осмысленном сравнении среднечасовой скорост и передачи данных при различных емкостях канала. На рис. 5 изображены среднечасовые скорости передачи данных при двух емкостях ка налов 6 Mbit/sec и 8 Mbit/sec, полученные после оценивания соответ ствующих параметров в модели (1) знаковым методом после принятия нулевой гипотезы (3 ).

 

Рис. 5. Изменение скорости передачи данных на входе канала RBNet-Teleglobe при двух емкостях канала

Как видно из этого рис. 5 и табл. 1, при изменении емкости канала скорость передачи данных изменилась не равномерно в ночные и дневные часы. При изменении емкости канала с 6 Mbit/sec до 8 Mbit/sec , емкость фактически выросла на 1/3. При этом скорость передачи данных конечным пользователям в ночные часы также выросла примерн о на 1/3, а в дневные часы - только на 1/4.

Использованные в работе знаковые методы проверки гипотез и оценивания параметров в целом можно использовать и в ситуациях, когда в данных присутствуют нехарактерные значения. В нашем случае в качестве подобных значений можно рассматрива ть наблюдения 24.01.00 и 26.01.00 (см. рис. 2б)), соответствующие техническим сбоям в работе канала. Расчеты показали, что и на массиве данных с 19.01.00 по 22.01.00 и с 24.01.00 по 29.01.00 з наковый критерий проверки гипотезы об отсутствии эффекта влияния суток в двухфакторной модели также не позволяет отвергнуть нулевую гипотезу при 5% уровне значимости. Однако построение автокорреляционной функции остатков для этого массива наблюдений приводит уже к довольно заметной автокорреляции соседних остатков (). Последнее в данном сл учае можно объяснить неустойчивостью коэффициента корреляции Пирсона, лежащего в основе вычисления автокорреляционной функции, к нехарактерным наблюдениям. (Более подробно этот эффект для показателей трафика обсуждался нами в [2]). В то же время мы не исключ аем возможности возникновения довольно сильной коррелированности отклонений от среднечасовой скорости передачи данных. В основе такой возможности лежит представление о том, что часть постоянных пользователей сети, не воспользовавшихся сетью в привычное дл я них время суток, перенесут свою активность на другое время суток. Т. е. снижение нагрузки на канал (и как следствие повышение скорости передачи данных конечным пользователям) в одно время суток может приводить к повышению этой нагрузки в другое время су ток (и как следствие снижение скорости передачи данных). Для описания подобных ситуаций рассматриваемых выше однофакторной и линейной двухфакторной модели становится недостаточно. Необходимо использовать более сложные модели.

Библиографический список

1. Болдин М.В., Симонова Г.И., Тюрин Ю.Н. “Знаковый статистический анализ линейных моделей”, М.: Наука, 1997.

2. Макаров А.А., Симонова Г.И. “Проблемы робастного оценивания статистических моделей суточных трафиков магистральных каналов компьютерных сетей”, Статистические методы оцен ивания и проверки гипотез. Пермь.: Перм. гос. ун-т., 1999. N 13.

3. Макаров А.А., Симонова Г.И., Ковба Н.Л. “Закономерности изменения загрузки магистральных каналов компьютерных сетей”, Автомат ика и телемеханика}. 2000. N 12.

contents