; УДК

Мониторинг: методики, модели, оценки

contents 

УДК 519.2

А.А.Макаров, Г.И.Симонова, Н.Л.Ковба, В.А.Турков

(Центр телекоммуникаций и технологий Интернет МГУ им. М.В.Ломоносова, Институт механики МГУ им. М.В.Ломоносова, Россия)

Стохастические модели мониторинга телекоммуникационных сетей

Разработка математических моделей сетевой активности и методов их исследования и оценки проводится нами на протяжении пяти последних лет в рамках различных проектов. Среди них следует особо упомянуть работы по мониторингу канала свя зи российских сетей науки и образования с мировой сетью Интернет - RBnet-Teleglobe. Этот проект выполняется в Центре телекоммуникаций и технологий Интернет МГУ им. М.В. Ломоносова по заданию Министерства промышленности, науки и технологий РФ в рамках прое кта 3.3.1 Межведомственной программы "Создания национальной сети компьютерных телекоммуникаций для науки и высшей школы" [1-3]. Эти работы в 2001 году также поддерживает РФФИ (грант 01-07-90070).

Одной из основных целей разработки математических моделей [4] функционирования различных элементов телекоммуникационных сетей (хостов, региональных сетей, магистральных каналов передачи данных) являет ся выработка научно-обоснованной модели управления и развития единой научно-образовательной сети России, которая по своему статусу является некоммерческой. С этой точки зрения, получаемые модели призваны адекватно описывать существующую ситуацию и предост авлять достоверный прогноз развития сетевой активности. С другой стороны попытки построения подобных моделей с учетом характера распределения изменчивости тех или иных показателей сетевой активности требуют создания алг оритмов и программ робастного (устойчивого) оценивания их параметров.

В настоящей работе рассматриваются модели соответствующие трем задачам. Это:

Отметим, что предлагаемые модели описывают поведение выбранного объекта в гетерогенной среде. Можно выделить несколько основных источников подобной гетерогенности [5-6]. Во-первых, можно говорить о су щественной гетерогенности физической инфраструктуры российских сетей, когда наряду с опто-волокном, как основой транспортной среды, широко используются спутниковые и радиорелейные каналы связи, а так же обычные и выделенные телефонные линии. Во-вторых, ра знородна природа пользовательских сетевых задач и обслуживающих их протоколов передачи данных. Последние оказывают существенное влияние на формирование скорости передачи данных. Еще одной причиной гетерогенности являются различные аппаратные платформы сет ей и подсетей и обеспечивающие их работу программные средства. Однако, не смотря на все перечисленные обстоятельства, для описания глобального трафика компьютерных сетей и роста числа хостов в сети удается предложить стохастические модели, которые не толь ко хорошо описывают результаты мониторинга, но и, как показала практика, дают содержательные прогнозы развития сетей.

Учитывая нестационарных характер исследуемых сетевых явлений, для их описания приходится привлекать модели временных нестационарных рядов, включающих, как правило, нелинейные тренды (задача 1 и 2) или объяснять возникающую нестационарно сть за счет введения дополнительных предикторов (задача 3). На этой стадии все эти задачи сводятся к тем или иным моделям линейной регрессии. Дополнительное исследование остатков в подобных моделях показывает, что они могут быть довольно сильно коррелиров анны (задача 1). Для описания этой ситуации, как показали исследования, хорошо подходят авторегерессионные модели. Отметим, что традиционные методы оценивания в этих задачах часто приводят к неудовлетворительным результатам и требуют разработки новых проц едур оценивания.

Кратко охарактеризуем полученные модели для каждой из указанных задач.

1. При изучении изменения загрузки магистральных каналов компьютерных сетей рассматривались три телекоммуникационных канала: Новосибирск-Москва, Екатеринбург-Москва и Симбирск-Москва на протяжении дву х лет, при неизменной топологии сетевой инфраструктуры и емкости каналов [7,8]. Показано, что в загрузке всех этих каналов можно выделить несколько характерных однотипных стадий. При этом каждая стадия довольно хорошо о писывается и прогнозируется моделью, включающей параболический (на стадии роста) или линейный (на стадии падения загрузки) тренд и авторегрессионную компоненту. Первая стадия роста загрузки емкости канала при этом протекает около 9 месяцев. За это время с реднесуточная загрузка канала возрастает с 15-20% до 60-75% от емкости канала. Уровень качества передачи данных при этом значительно снижается и на второй стадии развития загрузка канала начинает предсказуемо снижаться до уровня 30-40%. Этот процесс продо лжается около 7 месяцев. Затем опять начинается стадия роста загрузки, однако, темпы роста здесь значительно выше и загрузка канала достигает своего пикового значения на два-три месяца быстрее. Предложенные математические модели позволяют в этой задаче по лучать достоверный прогноз развития ситуации.

2. Динамика ежедневного роста числа хостов изучалась на данных большинства научно-образовательных сетей России (55 сетей) за 2000 г. При этом топология внутренней сетевой инфраструктуры для бол ьшинства изучаемых сетей не менялась, а емкость канала, обеспечивающего связь с глобальной сетью Интернет, была постоянной (8 Мбит/сек.). Показано, что для описания этой динамики как функции времени можно использов ать параболическую модель линейной регрессии с отрицательным коэффициентом при квадратичном члене. То есть при неизменных условиях транспортной среды происходит заметное замедление скорости роста числа хостов. Так, среднесуточный рост числа хостов за расс матриваемый период изменился с 200 (в январе - феврале) до 25 ед. в сутки в июле-августе 2000 г.

3. Скорость передачи данных конечным пользователям научно-образовательных сетей существенно (до двух и более раз) колеблется в течение суток [9]. Однако, характер этих колебаний достаточно устойчив по будним дням недели. В качестве одной из причин подобных колебаний можно рассматривать протокольную структуру совокупного трафика на канале< /FONT> [10]. Математическая модель в этой задаче представляет множественную линейную регрессию, в которой в качестве предикторов выступают: доля протокола http в совокупном трафике на "входе" канала, доля "request" по протоколу http на "выходе" канала и совокупные времена соединений по протоколу http на "входе" и "выходе" канала. В зависимости от структуры загрузки канала в качестве предикторов могут выступать и другие характеристики трафика: объе м переданной информации, число соединений, общее число переданных пакетов и пр. При этом коэффициент детерминации в подобных моделях достигает 95-97%.

Отметим, что полученная модель позволяет объяснить на первый взгляд парадоксальную ситуацию, когда качество доступа иностранных пользователей сети Интернет к российским информационным ресурсам значительно ниже, чем для российских пользо вателей к иностранным информационным ресурсам. При этом, в сторону России канал передачи данных RBnet-Teleglobe загружен на 100%, а в обратную сторону только на 40-50%.

Покажем проблемы, возникающие при оценке параметров используемых моделей, на примере 1 задачи.

В связи с тем, что трафик по-разному ведет себя на разных этапах своего развития его анализ целесообразно разбить на части, и проводить отдельно для каждой стадии его развития. В ходе статистического анализа трафиков главное внимание уделено, во-первых, проблеме выделения трендов на нестационарных участках трафиков и выяснения возможности использования трендов, полученных в моделях, для прогнозирования загрузки каналов в будущем. Во-вторых, исследованию корреляционной структуры трафиков после удаления из них трендов, по которой можно судить о зависимости между значениями загрузки каналов в соседние дни. В результате этого анализа получено уточнение математических моделей трафиков.

Для оценивания моделей трендов и авторегрессионных коэффициентов при исследовании корреляционной структуры мы использовали знаковый статистический метод анализа, подробно описанный в [11]. Этот метод обладает высокой робастностью и позволяет делать надежные выводы как в случаях, когда распределение случайных ошибок в модели имеет "тяжелые хвосты", так и при засорении данных.

Суть этого метода сводится к переходу от анализа не собственно наблюдений или остатков в модельных задачах, а их знаков. При этом предполагается, что наблюдения или остатки принимают положительные и отрицательные значения с равной вероятностью.

Необходимость использования робастных методов вызвана тем, что распределение наблюдений заметно отличается от нормального и имеет "тяжелые" хвосты. В этих условиях применение стандартных методов анали за, например метода наименьших квадратов (МНК) для определения трендов и авторегрессионных структур в трафиках, во-первых, не позволяет корректно определять уровень значимости оценок, а во-вторых, для подобных данных часто приводит к существенным ошибкам из-за неустойчивости МНК [7].

Методы, использованные при уточнении математической модели тренда на участках роста и спада, позволили адекватно описать тренд полиномами второй степени. Полученные оценки коэффициентов значимы, а соответств ующий уровень доверия превышает 95%.

Обратим внимание на то, что скорость роста загрузки канала квадратичная, а не линейная. Дальнейший, более тонкий, анализ был применен к остаткам после вычитания уточненной модели тренда. Показано, что остатки можно адекватно описать авт орегрессионной моделью первого порядка. Знаковые оценки коэффициента авторегрессии при этом колеблются от 0,3 до 0,6. После подстановки полученной модели авторегрессии первого порядка для остатков в исходную модель поли номиального тренда можно получить следующее уточнение модели, выражающее значение загрузки в виде полинома и от времени, и от значения загрузки в предыдущий момент времени. Значения найденных коэффициентов авторегрессии можно интерпретировать как "долю" с етевых задач, которую пользователи продолжают решать на следующий день. Часть этой "доли" естественным образом формируется из задач, начатых вечером и продолженных ночью. Другую часть, вероятно, составляют задачи, которые либо не удалось решить за один се анс, либо требуют регулярного обращения к сети.

Следующая стадия развития трафика каналов характеризуется неуклонным снижением загрузки при том, что подключенные к ним сети продолжают расти и развиваться. Подобная тенденция в поведении загрузки магистральных каналов объясняется замет ным снижением скорости и качества передачи данных, что заставляет пользователей реже использовать сетевые возможности. На этой стадии функционирования канала можно применить те же методы анализа, чтобы оценить коэффициенты модели и сделать прогноз на буду щее.

Проведенная работа позволила отработать методику формирования математических моделей адекватно описывающих процессы, регистрируемые при проведении мониторинга трафика телекоммуникационных сетей. Полученные модели дают возможность прогно зировать состояние этих сетей и вырабатывать практические рекомендации по улучшению качества их работы.

ЛИТЕРАТУРА:

  1. Васенин В.А., Макаров А.А. Проблемы и методики анализа трафика телекоммуникационных компьютерных сетей. // Тез. докл. Междунар. науч.-практ. конф. – Новосибирск , 1997. – С.173.
  2. Васенин В.А., Макаров А.А. Статистические модели трафика телекоммуникационных компьютерных сетей и их использование. // Тез. докл. Всеросс. науч.-метод. конф. " Телематика-97". – СПб, 1997. – С.51.
  3. Макаров А.А. К вопросу о мониторинге компьютерных сетей. Модели, методы, решения. // Тез. докл. Всеросс. науч.-метод. конф. "Телематика-98". – СПб, 1998. – С.77-78.
  4. Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. Изд. 2-е перераб. и доп. – М.: ИНФРА-М, 1998.
  5. Бойко В.В., Васенин В.А., Платонов А.П. Опорная инфраструктура национальной сети компьютерных телекоммуникаций для науки и выс шей школы. // Тез. докл. Всеросс. науч.-метод. конф. "Телематика-96". - СПб, 1996. – С.20-22.
  6. Васенин В.А. Российские академические сети и Internet. – М.: РЭФИА, 1997.
  7. Макаров А.А., Симонова Г.И. Проблемы робастного оценивания статистических моделей суточных трафиков магистральных каналов компьютерных сетей. Статистические методы оц енивания и проверки гипотез. // Межвуз. сб. науч. тр. – Пермь: Изд-во Перм. ун-та, 1999.
  8. Ковба Н.Л., Макаров А.А., Симонова Г.И. Закономерности изменения загрузки магистральных каналов компьютерных сетей. // Автоматика и Телемеханика. – 2000. – №12. – С.104-114.
  9. Макаров А.А., Симонова Г.И. Сравнительный анализ скорости передачи данных конечным пользователям научных и образовательных сетей на входе канала RBnet-Telrglobe // Материалы Междунар. науч.-методи ч. конф. "Новые информационные технологии в университетском образовании". – Новосибирск, 2000. – С.135.
  10. Макаров А.А., Ковба Н.Л., Турков В.А. Структура трафиков научно-образовательных сетей России на канале RBnet-Telrglobe // Материалы Междунар. науч.-методич. конф. "Новые информационные технологии в университетском образовании". – Новосибирск, 2000. – С.136.
  11. Болдин М.В., Симонова Г.И., Тюрин Ю.Н. Знаковый статистический анализ линейных моделей. – М.: Наука, 1997.
contents