0CЦ¤№2 ; А

Мониторинг: методики, модели, оценки

contents 

А.А. Макаров, Г.И. Симонова (г. Москва)

Статистические модели динамики роста числа хостов в российских научно-образовательных сетях

Изучение динамики роста числа хостов в российских научно-образовательных сетях в 2000 г. проводилось в рамках работ по мониторингу канала RBnet-Teleglobe, используемого для связи российских сетей науки и образования с мировой сетью Интернет. Эта работа выполнялась в Центре телекоммуникаций и технологий Интернет МГУ им.М.В.Ломоносова по заданию Миннауки России в рамках проекта 3.3.1 Межведомственной программы "Создание национальной сети компьютерных телекоммуникаций для науки и высшей школы" [1] и при поддержке РФФИ.

Сбор статистических данных охватывал 54 научно-образовательные сети, использовавших канал RBnet-Teleglobe для выхода в мировую сеть Интернет.Среди этих сетей было представле но большинство крупнейших научно-образовательных сетей Москвы, Подмосковья (Дубна, Черноголовка, Протвино, Пущино и др.) Новосибирска, Екатеринбурга, Томска, Самары, Нижнего Новгорода, Перми, Омска, Красноярска и многих других городов. С географической точки зрения в исследовании не были представлены лишь крупные сети Северно-Западного региона (С. Петербург, Петрозаводск и др.), которые использовали для выхода в мировую сеть канал NORDUNET. С ведомственной точки зрения рассматриваемые сети представляли сети учебных и научных центров страны, включая региональные подсети, охва тывающие школы и другие учреждения образования.

Интерес к изучению динамики роста числа хостов в научно-образовательных сетях обусловлен многими причинами. Состояние и развитие научно-образовательных сетей стало одним из важнейших факторов подготовки квалифицированных специалистов. Оно серьезнейшим образом влияет на эффективность научно-исследовательских работ. Среди причин интереса к развитию сетей мы также хотим обратить внимание на вопрос соответствия роста сетей и состояния сетевой инфраструктуры.

В работе будет показано, что несмотря на возможную неравномерность и непредсказуемость роста числа хостов в отдельных научно-образовательных сетях, в целом процесс ежедневного роста числа хостов может быть описан довольно простыми статистическими моделями с высокой точностью. Сравнение прогноза числа хостов на базе подобранных моделей с дальнейшими наблюдениями показывает, что предлагаемые модели обладают вполне удовлетворительной локальной прогнозной точностью. Полученные результаты могут быть использованы в различных целях и, в частности, для планирования сроков модернизации сетевой инфраструктуры.

Материалы

Опишем и поясним методику сбора данных ежедневной динамики числа хостов в рассматриваемых научно-образовательных сетях. Под новым хостом в сети мы будем понимать новый IP-адрес, с которого зафиксирован трафик на выходе в сеть. (Это определение может быть под вергнуто определенной критике, т.к. при динамическом выделении текущих IP-адресов одним и тем же адресом в разное время могут пол ьзоваться разные компьютеры в сети. В то же время при подобном подключении к сети один и тот же компьютер может использовать разл ичные IP-адреса. Однако доля подобных хостов в научно-образовательных сетях, по нашим оценкам, составляет только несколько процен тов и не может оказывать определяющего влияния на динамику этого показателя).

Сбор информации о функционирующих хостах в сети был начат с 1.11.1999 года. В течение четырех недель, когда фактически закончился стремительный рост числа новых хостов, была сформирована исходная база данных хостов в различных сетях, включающая около 48000 IP-адресов. Эта информация стала отправной точкой исследования. В дальнейшем с помощью изучения исходящего трафика ежесуточно проводился анализ обнаружения новых хостов. Эти данные представлены на рис. 1 с 28.11.99 по 25.05.00 г.

 

Еще раз обратим внимание на два момента. Во-первых, приведенные данные относятся, хоть и к большинству научно-образовательных сете й, но все же не всем. Во-вторых, активность хоста (IP-адреса) фиксируется на выходе в мировую сеть Интернет. То есть в случае сет евой активности хоста только внутри России (скажем только внутри своей локальной сети), подобный хост не попадает в данные статис тики. (Заметим, что стандартные программы работы в сети (Microsoft Explorer, Netscape и др.) по умолчанию настроены на обращение к серверу производителя и поэтому при подключении нового компьютера к сети сразу обращаются к этим серверам и тем самым фиксируют ся по нашей методике сбора статистики). Таким образом приведенные данные следует рассматривать как несколько заниженные по сравнению с реальными показателями. Однако на взгляд авторов общую тенденцию роста числа хостов приведенные данные отражают достаточно точно.

Представленные на рис. 1 данные показывают, что рост числа хостов имеет довольно плавный характер, и, на первы й взгляд, имеет почти постоянную скорость роста. Последнее однако не так, и наблюдается заметное снижение этой скорости. Так если среднесуточный рост числа хостов в январе 2000~г. составлял почти 200 единиц, то в марте он опустился в среднем до 150 единиц. Общая тенденция уменьшения прироста числа хостов хорошо видна на рис. 2.

Для понимания дальнейших перспектив роста числа хостов необходимо было построить математическую модель, дающую приемлемое описание наблюдаемых данных.

Заметим, что на протяжении большей части срока исследования инфраструктура (топология и емкость магистральных каналов), а также пропускная способность внешнего канала RBnet-Teleglobe оставались практически неизменными. Таким образом, представленные данные о числе хостов и динамике их роста зафиксированы в однородных условиях. Последнее весьма важно для понимания причин замедления скорости роста числа хостов.

Постановка задачи

Обозначим число хостов в момент времени , где через .При этом момент времени соответствует 28.11.99 г. Значения в различные моменты времени можно считать практически независимыми, так как их формирование обусловлено расширением независимых между собой десятков сетей и подсетей, не имеющих единой программы и сроков модернизации и расширения. Поэтому в качестве метода подбора модели мы будем использовать метод наименьших квадратов в моделях линейной и нелинейной регрессии.

В качестве возможных классов моделей для описания динамики роста числа хостов, учитывая явно нелинейный характер этого процесса, прежде всего естественно рассмотреть полиномиальные модели типа:

где степень полинома, учитывая характер изменения данных на рис. 1, скорее всего невелика. В качестве возможного недостатка прогно за у этого класса моделей в рассматриваемой задаче следует указать возможность неограниченного роста или выход в зону сокращения числа хостов (скажем ветвь параболы стремящуюся в ). Однако в ограниченных пределах про гноз на базе этой модели может быть вполне приемлем.

В качестве класса моделей с верхней горизонтальной асимптотой мы рассмотрим логистическую модель:

где коэффициент задает уровень горизонтальной асимптоты при . Наличие подобной горизонтальной асимптоты может рассматриваться и как определенный недостаток в рассматриваемой нами задаче. Так слишком маленькое значение этого коэффициента может противоречить элементарному здравому смыслу в рассматриваемо й задаче.

В качестве еще одного возможного класса моделей будет рассмотрены модели, описывающие не непосредственное изменение , а величины для . График приращений приведен на рис. 2. Так как визуальный анали з этого графика показывает зависимость вариации наблюдений от времени, то для стабилизации дисперсии наблюдений мы воспользуемся распространенным в статистическом анализе приемом и перейдем от величины к величине . Полученный после этого преобразования ряд наблюдений приведен в виде точек на рис. 4. Из этого рисунка видно, что имеет тенденцию убывания со временем, и она носит, вероятнее всего, линейный характер. Поэтому в качестве третьей модели в этой задаче будет рассмотрена модель:

где означает математическое ожидание от рассматриваемых наблюдений в каждый момент времени .

Результаты и обсуждение

Результаты применения метода наименьших квадратов для оценки параметров в описанных выше регрессионных моделях приведены на рис. 3 и 4.

 

Обратим внимание, что в классе полиномиальных моделей данные адекватно описываются параболической моделью. Коэффициент детерминации для этой модели равен 99.8%.

Приведенная на рис. 3 парабола достигает максимума в точке , который равен 85238 хостов, а затем начинает убывать с ростом . Ясно, что прогнозная ценность подобной модели может рассматриваться только до момента времени , так как методика сбора данных не допускает уменьшения числа хостов в накапливаемой базе подключенных хос тов. С физической же точки зрения убывание числа хостов в сети соответствует переключению хостов в другие сети или их выходу из с троя по техническим причинам.Полученный вид (2) логистической модели на рис. 3 на графике практически не отличим от параболической модели (1). Коэффициент детерминации для этой модели с точностью до ошибки округления также равен 99.8%. Заметим однако, что г оризонтальная асимптота этой модели проходит на уровне 89487.5. Ясно, что с практической точки зрения нет никаких оснований считать, что число хостов в Российских научно-образовательных сетях не превысит этой цифры. Поэтому прогноз на базе этой модели так же может иметь только локально ограниченный срок времени.

В модели (3), представленной на рис. 4, реальное ограничение на срок прогноза возникает из требования положительности . То есть ориентировочный максимальный срок прогноза в этой модели равен примерно 720 дням. Заметим, что пересчитанный в исходные единицы коэффициент детерминации в последней модели также равен 99.8%.Графики остатков для каждой из трех указа нных моделей в рассматриваемом нами временном интервале при приведены на рис. 6. При этом графики остатков для первых двух моделей практически совпадают, а график остатков для третьей модели явно меньше отклоняется от нуля, чем у предыдущих моделей. Ошибка ежедневного предсказания в этой модели со ставляет менее 25 в сутки.Учитывая сделанные выше замечания по каждой из моделей предварительно представляется, что третья модель более перспективна для прогнозирования.Для построенных с помощью указанных моделей прогнозов в дальнейшем было проведено срав нение с данными, полученными в период с 26.05.2000 по 31.08.2000. Результаты этого сравнения представлены на рис.~5, где точками изображены данные наблюдений, а линиями - прогнозы по трем моделям. Из рис. 5 видно, что все три модели дали вполне приемлемые прогнозы. Так максимальная накопленная ошибка прогноза за три месяца составила чуть более 1000 хостов, что составляет около 1.2% от общего числа хостов.

Отклонения наблюдений за этот период от прогнозов представлены на рис. 6. Заметим что, прогнозы по (1) и (2) модели оказались завышенными и скорость роста числа хостов проходила быстрее, чем предсказывают эти модели. Наилучшее качество прогноза продемонстрировала (3) модель. Это хорошо видно на рис. 5 и 6.Заметим, что срок прогноза - 3 месяца составил почти половину от срока наблюдений, и увеличивать далее его вряд ли целесообразно, не проводя коррекции самих моделей.

Выводы

Изучение развития компьютерных сетей и сетевой активности в России да и во всем мире в силу объективных причин находится на стадии формирования подходов и методов решения различных задач в этой области. При этом необходимость решения этих задач очевидна и для целей планирования развития сетей, и для определения различных технических показателей инфраструктуры этих сетей.В настоящей работе показано, что рост числа хостов в достаточно крупных национальных сетях, имеющих разветвленную ин фраструктуру, происходит закономерно и его можно локально прогнозировать на базе простых статистических моделей.Выявлено, что в условиях неизменной инфраструктуры сетей, происходит быстрое увеличение числа хостов (почти в два раза за девять месяцев), при водящее к перегрузке сетей и снижению качества сетевого сервиса. Вероятно это одна из главных причин замедления скорости роста числа хостов.

Библиографический список

1. Васенин В.А., Макаров А.А., Гусев Н.В. Мониторинг связанности НСКТ НВШ с Интернет . Подходы к созданию модели управления. Новые информационные технологии в университетском образовании, сборник трудов ИДМиИ, Новосибирск, 2000, с.124 - 125

contents