Реферат: Кластерный анализ в задачах социально-экономического прогнозирования - текст реферата. Скачать бесплатно.
Банк рефератов, курсовых и дипломных работ. Много и бесплатно. # | Правила оформления работ | Добавить в избранное
 
 
   
Меню Меню Меню Меню Меню
   
Napishem.com Napishem.com Napishem.com

Реферат

Кластерный анализ в задачах социально-экономического прогнозирования

Банк рефератов / Математика

Рубрики  Рубрики реферат банка

закрыть
Категория: Реферат
Язык реферата: Русский
Дата добавления:   
 
Скачать
Microsoft Word, 732 kb, скачать бесплатно
Заказать
Узнать стоимость написания уникального реферата

Узнайте стоимость написания уникальной работы

16 Глава 1. КЛАСТЕРНЫЙ АНАЛИЗ В ЗАДАЧАХ СОЦИА ЛЬНО-ЭКОНОМИЧЕСКОГО ПРОГНО ЗИРОВАНИЯ 1.1 Введени е в кластерный анализ. При анализе и прогнозировании социально-экономических явлений исследователь довольно часто сталкивается с многомерностью их описания . Это происходит при решении задачи сегментирования рынка , п остроении типолог ии стран по достаточно большому числу показателей , прогнозирования конъюнктуры рынка отдельных товаров , изучении и прогнозировании экономической депрессии и многих других проблем. Методы многомерного анализа - наибол ее действенный количественный инструмент ис следования социально-экономических процессов , описывае мых большим числом характеристик . К ним о тносятся кластерный анализ , таксономия , распознава ние образов , факторный анализ. Кластерный анализ наиболее ярко отражает черты многомерного анализа в класси фикации , факторный анализ – в исследо вании связи . Иногда подход кластерного анализа называю т в литературе численной таксономией , численн ой классификацией , распознаванием с самообучением и т.д. Первое применение кластерный анализ нашел в социологии . Назван ие кластерный ана лиз происходит от английского слова cluster – гроздь , скопление . Впервые в 1939 был определен предме т кластерного анализа и сделано его описа ние исследователем Трионом . Главное назначение кластерного анализа – разбиение множества исследуем ых объектов и признаков на однородные в соответствующем понимании группы или кластеры . Это означает , что решается задача классификации данных и выявления соответствующей структуры в ней . Методы класт ерного анализа можно применять в самых ра зличных случаях, даже в тех случаях , когда речь идет о простой группировке , в которой все сводится к образованию групп по количественному сходству. Большое достоинство кластерного анализа в том , что он позволяет производить разбиен ие объектов не по одному параметру , а по целому набору признаков . Кроме того , кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов , и позволяет рассматривать множеств о исходных данных практически произволь н ой природы . Это имеет большое значение , например , для прогнозирования конъюнктуры , ко гда показатели имеют разнообразный вид , затру дняющий применение традиционных эконометрических подходов. Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать , сжимать большие массивы со циально-экономической информации , делать их компак тными и наглядными. Важное значение кластерный анализ имеет применительно к совокупностям временных рядо в , характеризующих экономическое развитие (на пример , общехозяйственной и товарной конъ юнктуры ). Здесь можно выделять периоды , когда значения соответствующих показателей были дост аточно близкими , а также определять группы временных рядов , динамика которых наиболее схожа. Кластерный анализ можно исполь зовать циклически . В этом случае исследование пр оизводится до тех пор , пока не будут д остигнуты необходимые результаты . При этом ка ждый цикл здесь может давать информацию , к оторая способна сильно изменить направленность и подходы дальнейшего применения кл а стерного анализа . Этот процесс можно п редставить системой с обратной связью. В задачах социально-экономического прогнозиро вания весьма перспективно сочетание кластерного анализа с другими количественными методами (например , с регрессионным анализом ). Как и любой другой метод , класте рный анализ имеет определенные недостатки и ограничения : В частности , состав и количе ство кластеров зависит от выбираемых критери ев разбиения . При сведении исходного массива данных к более компактному виду могут возникать о п ределенные искажения , а также могут теряться индивидуальные черты отдельных объектов за счет замены их х арактеристиками обобщенных значений параметров к ластера . При проведении классификации объектов игнорируется очень часто возможность отсутстви я в рассм а триваемой совокупности каких-либо значений кластеров. В кластерном анализе считается , что : а ) выбранные характеристики допускают в принципе желательное разбиение на кластеры ; б ) единицы измерения (масштаб ) выбраны правильно. Выбор масштаба играет большую роль . Как правило , да нные нормализуют вычитанием среднего и делени ем на стандартное отклоненение , так что ди сперсия оказывается равной единице. 1.2 Задача кластерного анализа. Задача кластерн ого анализа заключается в том , чтобы на основании данных , содер жащихся во множестве Х , разбить множе ство объектов G на m ( m – целое ) кластеров (подмножеств ) Q 1 , Q 2 , … , Q m , так , чтобы каждый объект G j принадлежал одному и только одному подмножеству разбиения и чтобы объекты , принадлежащие одному и том у же кластеру , был и сходными , в то время , как объекты , принадлежащие разным кластерам были разнородными. Например , пусть G включает n стран , любая из которых характеризуется ВНП на душу населения ( F 1 ), числом М автомашин на 1 тысячу человек ( F 2 ), душевым потреблением электр оэ нергии ( F 3 ), душевым потреблением с тали ( F 4 ) и т.д . Тогда Х 1 (вект ор измерений ) представляет собой набор указан ных характеристик для первой страны , Х 2 - для второй , Х 3 для третьей , и т.д . Задача заключается в том , чтобы разбить страны по уровню развития. Решением задачи кластерного анализа являются разбиения , удовлетворяющие некоторому критерию оптимальности . Этот критерий может п редставлять собой некоторый функционал , выражающи й уровни желательности различных разбиений и группировок , который называют цел евой функцией . Например , в качестве целевой функц ии может быть взята внутригрупповая сумма квадратов отклонения : где x j - представляет собой измерения j -го об ъекта. Для решения задачи кластерного анализа необходимо определить понятие сходства и р азнородности. Понятно то , что объекты -ый и j -ый попадали бы в один кластер , когда расстояние (отдаленность ) между точками Х и Х j было бы достаточно маленьким и попадали бы в разные кластеры , когда это расстоя ние было бы достаточно большим . Таким обра зом , попадание в один или разные кластеры объектов определяется понятием расстояния ме жду Х и Х j из Ер , где Ер - р -мерное евклидово пространство . Нео трицательная функция d(Х , Х j ) называется функцией расстояния (метри кой ), если : а ) d(Х i , Х j ) 0 , для всех Х и Х j из Ер б ) d(Х i , Х j ) = 0 , тогда и только тогда , когда Х = Х j в ) d(Х i , Х j ) = d(Х j , Х ) г ) d(Х i , Х j ) d(Х i , Х k ) + d(Х k , Х j ), где Х j ; Х i и Х k - любы е три вектора из Ер . Значение d(Х i , Х j ) для Х i и Х j называется расстояни ем между Х i и Х j и эквивале нтно расстоянию между G i и G j соответственно выбранным характеристикам ( F 1 , F 2 , F 3 , ..., F р ). Наиболее часто употребляются с ледующие функции расстояний : 1. Е вклидово расстояние d 2 (Х i , Х j ) = 2 . l 1 - норма d 1 (Х i , Х j ) = 3. Сюпремум - норма d (Х i , Х j ) = sup k = 1, 2, ..., р 4 . l p - норм а d р (Х i , Х j ) = Евклидова метри ка является наиболее популярной . Метри ка l 1 наиболее легкая для вычислений . Сюпремум-норма легко считается и включает в себя процедуру упо рядочения , а l p - норма охватывает функц ии расстояний 1, 2, 3,. Пусть n измерений Х 1 , Х 2 ,..., Х n представлены в виде матрицы данных размером p n : Тогда расстояние между парами векторов d(Х , Х j ) могут быть представлены в виде симметричной ма трицы расстояний : Понятием , противоположным расстоян ию , является понятие сходства между объектами G . и G j . Неотр ицательная вещественная функция S(Х ; Х j ) = S j называется мерой сходства , если : 1) 0 S(Х i , Х j ) 1 для Х Х j 2) S( Х i , Х i ) = 1 3) S( Х i , Х j ) = S( Х j , Х ) Пары значений мер сходства можно объединить в матрицу сходства : Величину S ij называют коэффициентом сходства . 1.3. Ме тоды кластерного ан ализа. Сегодня существует достаточно много методов кластерного анализа . Остановимся на некоторых из них (ниже приводимые ме тоды принято называть методами минимальной ди сперсии ). Пусть Х - матрица наблюдени й : Х = (Х 1 , Х 2 ,..., Х u ) и квадр ат евкли дова расстояния между Х и Х j определяется по формуле : 1) Метод полных связей. Суть данного метода в том , что два объек та , принадлежащих одной и той же г руппе (кластеру ), имеют коэффициент сходства , ко торый меньше некоторого порогового значения S . В терминах евклидова расстояния d это означает , что расстояние между двумя точками (объектами ) кластера не должно превышать нек оторого порогового значения h . Таким образом , h определяет максимально допустимый диаметр подмножества , образующего кластер. 2) Метод максим ального локального расстояния. Каждый объект рассматривается как одноточечный кластер . Объекты группируются п о след ующему правилу : два кластера объ единяются , если максимальное расстояние между точками одного кластера и точками другого минимально . Процедура состоит из n - 1 шагов и результатом являются разбиения , которые совпадают со вс евозможными разбиениями в предыдущ ем мето де для любых пороговых значений. 3) Метод Ворда. В этом методе в качестве цел евой функции применяют внутригрупповую сумму квадратов отклонений , которая есть ни что иное , как сумма квадратов расстояний между каждой точкой (объектом ) и средней по кл а стеру , содержащему этот объект . На ка ждом шаге объединяются такие два кластера , которые приводят к минимальному увеличению целевой функции , т.е . внутригрупповой суммы квадратов . Этот метод направлен на объединени е близко расположенных кластеров. 4) Центро идный метод. Расстояние между двумя кластерами определяется как евклидово расстояние между центрами (средними ) этих кластеров : d 2 ij = ( X – Y) Т ( X – Y) Кластеризация идет поэт апно на каждом из n – 1 шагов объединяют два кластер а G и , имеющие минимальное значение d 2 ij Если n 1 много больше n 2 , то центры объединения двух кластеров близки друг к другу и характ ери стики второго кластера при объединени и кластеров практически игнорируются . Иногда этот метод иногда называют еще методом вз вешенных групп. 1.4 Алгоритм последовательной кластеризац ии. Рассмотрим Й = (Й 1 , Й 2 , … Й n ) как множество кластеров Й 1 , Й 2 ,… Й n . Выберем дв а из них , например , Й и Й j , которые в некот ором смысле более близки друг к другу и объединим их в один кластер . Новое множество кластеров , состоящее уже из n -1 кластеров , будет : Й 1 , Й 2 …, Й , Й j , … , Й n . Повторяя процесс , получим последовательные множества кластеров , состоящие из ( n -2) , ( n -3) , ( n – 4) и т.д . кла стеров . В конце процедуры можно получить к ластер , состоящий из n объектов и совпадающий с первоначальным множеством Й = (Й 1 , Й 2 , … Й n ) . В качестве меры расстояния возьмем кв адрат евклидовой метрики d j 2 . и вычислим матрицу D = d i j 2 , где d i j 2 - квадрат расстояния меж ду Й и Й j : Й 1 Й 2 Й 3 …. Й n Й 1 0 d 12 2 d 13 2 …. d 1n 2 Й 2 0 d 23 2 …. d 2n 2 Й 3 0 …. d 3n 2 …. …. …. Й n 0 Пусть расстояние между Й i и Й j будет минимальным : d j 2 = min d i j 2 , i j . Образуем с помощью Й i и Й j новый кла стер Й i , Й j . Построим новую (( n-1), (n-1)) матрицу расстоян ия Й i , Й j Й 1 Й 2 Й 3 …. Й n Й i ; Й j 0 d i j 2 1 d i j 2 2 d i j 2 3 …. d i j 2 n Й 1 0 d 12 2 d 1 3 …. d 1 2 n Й 2 0 d i j 2 1 …. d 2 n Й 3 0 …. d 3n Й n 0 ( n -2) строки для последней матр ицы взяты из предыдуще й , а первая строка вычислена заново . Вычис ления могут быть сведены к минимуму , если удастся выразить d i j 2 k ,k = 1, 2,… , n ; (k i j) чер ез элементы первоначальной матрицы. Исходно определено расстояние лишь между одноэлементными кластерами , но надо определя ть расстояния и между кластерами , содержащими более чем один элемент . Это можно сде лать различными способами , и в зависимости от выбранного способа мы получают алгоритм ы кластер анализа с различными свойства ми . Можно , например , положить расстояние между кластером i + j и некоторым другим кластером k , равным среднему арифмет ическому из расстояний между кластерами i и k и кластерами j и k : d i+j , k = Ѕ (d i k + d j k ) . Но можно также определит ь d i+j , k как минимальное из этих двух расст ояний : d i+j , k = min (d i k + d j k ) . Таким образом , описан первый шаг работы агломеративного иерархического алго ритма . Последующие шаги аналогичны. Довольно широкий класс алгоритмов может быть полу чен , если для перерасчета расстояний и спользовать следующую общую формулу : d i+j , k = A(w) min(d ik d jk ) + B(w) max(d ik d jk ) , где A(w) = , если d ik d jk A(w) = , если d ik d jk B(w) = , если d k d jk B ( w ) = , если d ik d jk где n i и n j - число элементов в кластерах i и j , а w – свободный параметр , выбор которого определяет конкретн ый алгоритм . Например , при w = 1 мы получаем , так называ емый , алгоритм “средней связи” , для которого формула перерасчета расстояний принимает вид : d i+j , k = В данном случае расстояние меж ду двумя класте рами на каждом шаге работы алгоритма оказывается равным среднему арифметическому из расстояний между всеми такими парами элементов , что один элемент пары принадлежит к одному кластеру , другой - к другому. Наглядный смысл параметра w становится по нятным , е сли положить w . Ф ормула пересчета расстояний пр инимает вид : d i+j , k = min ( d , k d jk ) Это будет так называемый а лгоритм “ближайшего соседа” , позволяющий выделять к ластеры сколь угодно сложной формы при условии , что различные части таких кластеров соединены цепочками близких друг к другу элементов . В данном случае расс тояние между двумя кластерами на каждом ш аге работы алгоритма оказывается равным расст оянию между д в умя самыми близкими элементами , принадлежащими к этим двум кл астерам. Довольно часто предполагают , что первоначальные расстояния ( различия ) между группируемыми элементами заданы . В некоторых задачах это действительно так . Однако , задаются только объекты и и х характеристики и матрицу расстояний строят исходя из этих данных . В зависимости от того , вычисляются ли расстояния между о бъектами или между характеристиками объектов , используются разные способы. В случае кл астер анализа объектов наиболее часто мерой различия служит либо квадрат евклидова расстояния (где x ih , x jh - значения h -го признака для i -го и j -го объектов , а m - число характерист ик ), либо само евкл идово расстояние . Ес ли признакам приписывается разный вес , то эти веса можно учесть при вычислении расс тояния Иногда в качестве меры различия испол ьзуется р асстояние , вычисляемое по формул е : которые называют : "хэмминговым ", "манхэттенским " или "сити-блок " расстоянием. Естественной ме рой сходства характеристик об ъектов во многих задачах является коэффициент корреляции между ними где m i ,m j , i , j - соответ ст венно средние и среднеквадратичные отклонения для характеристик i и j . Мерой различия между характеристиками может служить величина 1 - r . В некоторых задачах знак коэф фициента корреляции несуществен и зависит лиш ь от выбора единицы измерения . В этом случае в качестве меры различия между характеристиками используется 1 - r i j 1 .5 Число кластеров. Очень важным вопросом является проблема выбора необходимого числа кластеров . Иногда можно m число кластеров выбирать априорно . Однако в общем случае это число опреде ляется в процессе разбиения множества на кластеры . Проводились исследования Фортьером и Соло моном , и было установлено , что число класт еров должно быть принято для достижения в ероятн ости того , что найдено наилучшее разби ение . Таким образом , оптимальное число разбиен ий является функцией заданной доли наилучших ил и в некотором смысле допустимых разбиений во множестве всех во зможных . Общее рассеяние будет тем больше , чем выше доля доп устимых разбиений . Фортьер и Соломон разработ али таблицу , по которой можно найти число необходимых разбиений . S( в зависимости от и (где - вероятность того , что найдено наи лучшее разбиение , - доля наилучших разбиений в общем числе разбиений ) Причем в качестве меры разнородности используется не мера рассеяния , а мера принадлежности , введенная Хользенгеро м и Харманом . Табл ица значений S( ) приводится ниже. Таблица значений S( ) \ 0.20 0.10 0.05 0.01 0.001 0.0001 0.20 8 11 14 21 31 42 0.10 16 22 29 44 66 88 0.05 32 45 59 90 135 180 0.01 161 230 299 459 689 918 0.001 1626 2326 3026 4652 6977 9303 0.0001 17475 25000 32526 55000 75000 100000 Довольно часто критерием объединения (чис ла кластеров ) становится изменение соответствующе й функции . Например , суммы квадратов отклонени й : Процессу группировки должно соответствовать здесь последовательное минимальное возрастание значения критерия E . Наличие резкого скачка в зн ачении E можно интерпретировать как характеристику числ а класт еров , объективно существующих в исследуемой совокупности. Итак , второй способ определения наилучшег о числа кластеров сводится к выявлению ск ачков , определяемых фазовым переходом от силь но связанного к слабосвязанному состоянию объ ектов. 1.6 Дендограммы. Наиболее известный метод представления ма трицы расстояний или сходства основан на идее дендограммы или диаграммы дерева . Дендог рамму можно определить как графическое изобра жение результатов процесса последовательной клас теризации , которая осуществляется в те рминах матрицы расстояний . С помощью дендогра ммы можно графически или геометрически изобра зить процедуру кластеризации при условии , что эта процедура оперирует только с элемент ами матрицы расстояний или сходства. Существует много способов построе ния д ендограмм . В дендограмме объекты располагаются вертикально слева , результаты клас теризации – справа . Значения расстояний или сходства , отвечающие строению новых кластеро в , изображаются по горизонтальной прямой пове рх дендограмм. Рис 1 На рисунке 1 показан один из примеров дендограммы . Рис 1 соответствует случаю шести объектов ( n =6) и k характе ристик (признаков ). Объекты А и С наиболее близки и поэтому о бъединяются в один кластер на уровне близ ости , равном 0,9. Объекты D и Е объединяются при уровне 0,8. Теперь имеем 4 кластера : (А , С ), ( F ), ( D, E), (B) . Далее образуются кластеры (А , С , F ) и ( E, D, B) , соответствующие уровню близости , равному 0,7 и 0,6. Окончат ельно все объекты группируются в один кла стер при уровне 0,5. Вид дендограммы зависит от выбора мер ы сходства или расстояния между объектом и кластером и метода кластеризации . Наиболее важным моментом является выбор меры сход ства или меры расстоя ния между объект ом и кластером. Число алгоритмов кластерного анализа слиш ком велико . Все их можно подразделить на иерархические и неиерархические. Иерархические алгоритмы связаны с построе нием дендограмм и делятся на : а ) агломеративные , характеризуемые п ос ледовательным объединением исходных элементов и соответствующим уменьшением числа кластеров ; б ) дивизимные (делимые ), в которых число кластеров возрастает , начиная с одного , в результате чего образуется последовательность расщепляющих групп. Алгоритмы кластерного анализа имеют сегодня хорошую программную реализацию , котора я позволяет решить задачи самой большой р азмерности. 1.7 Данные Кластерный анализ можно применять к и нтервальным данным , частотам, бинарными д анным . Важно , чтобы переменные изменяли сь в сравни мых шкалах. Неоднородность единиц измерения и вытекаю щая отсюда невозможность обоснованного выражения значений различных показателей в одном м асштабе приводит к тому , что величина расс тояний между точками , отражающими положение о бъектов в простр анстве их свойств , ока зывается зависящей от произвольно избираемого масштаба . Чтобы устранить неоднородность измере ния исходных данных , все их значения предв арительно нормируются , т.е . выражаются через от ношение этих значений к некоторой величине , отража ю щей определенные свойства д анного показателя . Нормирование исходных данных для кластерного анализа иногда проводится посредством деления исходных величин на средн еквадратичное отклонение соответствующих показателей . Другой способ сводиться к вычислению , т а к называемого , стандартизованного вк лада . Его еще называют Z -вкладом. Z- вклад показывает , сколько стандартных отклонений отделя ет данное наблюдение от среднего значения : , где x i – зн ачение данного наблюдения , – средн ее , S – стандартное отклонение. Среднее для Z -вкладов является нулевым и станд артное отклонение равно 1. Стандартизация позволяет сравнивать наблюден ия из различных распределений . Если расп ределение переменной является нормальным (или близким к нормальному ), и средняя и диспер сия известны или оцениваются по большим в ыборным , то Z -вклад для наблюдения обеспечивает более специфическую информацию о его расположении. Заметим , что методы нор мирования о значают признание всех признаков равноценными с точки зрения выяснения сходства рассматр иваемых объектов . Уже отмечалось , что применит ельно к экономике признание равноценности раз личных показателей кажется оправданным отнюдь не всегда . Было бы, желательным н аряду с нормированием придать каждому из показателей вес , отражающий его значимость в ходе установления сходств и различий объ ектов. В этой ситуации приходится прибегать к способу определения весов отдельных показат елей – опросу экспертов . Нап ример , пр и решении задачи о классификации стран по уровню экономического развития использовались результаты опроса 40 ведущих московских специали стов по проблемам развитых стран по десят ибалльной шкале : обобщенные показатели социально-экономического разви тия – 9 баллов ; показатели отраслевого распределения занятог о населения – 7 баллов ; показатели распространенности наемного труда – 6 баллов ; показатели , характеризующие человеческий элем ент производительных сил – 6 баллов ; показатели развития материальных произв одительных сил – 8 баллов ; показатель государственных расходов – 4б алла ; “военно-экономические” показатели – 3 балла ; социально-демографические показатели – 4 балла . Оценки экспертов отличались сравнительно высокой устойчивостью . Экспертные оценки д ают извес тное основание для определения важности индик аторов , входящих в ту или иную группу показателей . Умножение нормированных значений пок азателей на коэффициент , соответствующий среднему баллу оценки , позволяет рассчитывать расстоя ния между точками , о т ражающими пол ожение стран в многомерном пространстве , с учетом неодинакового веса их признаков. Довольно часто при решении подобных з адач используют не один , а два расчета : первый , в котором все признаки считаются равнозначными , второй , где им придаются р азличные веса в соответствии со средн ими значениями экспертных оценок. 1.8. Применение кластерного анализа. Рассмотрим некоторые приложения кластерного анализа. 1. Деление стран на группы по уровню развития. Изучались 65 стр ан по 31 показателю (национал ьный доход на душу населения , доля населения занятого в промышленности в %, накопления на душу населения , доля населения , занятого в сельском хозяйстве в %, средняя продолжительность жизни , число автомашин на 1 тыс . жителей , численно сть вооруженных сил на 1 млн . жите лей , доля ВВП промышленности в %, доля ВВП сельского хозяйства в %, и т.д .) Каждая из стран выступает в данном рассмотрении как объект , характеризуемый опреде ленными значениями 31 показателя . Соответственно он и могут быть представлены в качестве точек в 31-мерном пространстве . Такое простра нство обычно называется пространством свойств изучаемых объектов . Сравнение расстояния между этими точками будет отражать степень бли зости рассматриваемых стран , их сходство друг с другом . Социально-экономиче с кий смысл подобного понимания сходства означает , что страны считаются тем более похожими , ч ем меньше различия между одноименными показат елями , с помощью которых они описываются. Первый шаг подобного анализа заключается в выявлении пары народных хозяйств , у чтенных в матрице сходства , расстояние между которыми является наименьшим . Это , оче видно , будут наиболее сходные , похожие экономи ки . В последующем рассмотрении обе эти стр аны считаются единой группой , единым кластеро м . Соответственно исходная матрица прео б разуется так , что ее элементами станов ятся расстояния между всеми возможными парами уже не 65, а 64 объектами – 63 экономики и вновь преобразованного кластера – условного объединения двух наиболее похожих стран . Из исходной матрицы сходства выбрасываются с троки и столбцы , соответствующие расстояниям от пары стран , вошедших в объе дение , до всех остальных , но зато добавляю тся строка и столбец , содержащие расстояние между кластером , полученным при объединении и прочими странами. Расстояние между вновь полученн ым кластером и странами полагается равным сре днему из расстояний между последними и дв умя странами , которые составляют новый класте р . Иными словами , объединенная группа стран рассматривается как целое с характеристиками , примерно равными средним из харак т еристик входящих в него стран. Второй шаг анализа заключается в расс мотрении преобразованной таким путем матрицы с 64 строками и столбцами . Снова выявляется пара экономик , расстояние между которыми имее т наименьшее значение , и они , так же ка к в первом случ ае , сводятся воедино . При этом наименьшее расстояние может оказа ться как между парой стран , так и межд у какой-либо страной и объединением стран , полученным на предыдущем этапе. Дальнейшие процедуры аналогичны описанным выше : на каждом этапе матрица прео б разуется так , что из нее исключаются два столбца и две строки , содержащие расстоян ие до объектов (пар стран или объединений – кластеров ), сведенных воедино на преды дущей стадии ; исключенные строки и столбцы заменяются столбцом и строкой , содержащими рас с тояния от новых объединений д о остальных объектов ; далее в измененной м атрице выявляется пара наиболее близких объек тов . Анализ продолжается до полного исчерпани я матрицы (т . е . до тех пор , пока вс е страны не окажутся сведенными в одно целое ). Обобщенные р езультаты анализа матрицы можно представить в виде дерева сходства (дендограммы ), подобного описанному в ыше , с той лишь разницей , что дерево сх одства , отражающее относительную близость всех рассматриваемых нами 65 стран , много сложнее схемы , в которой фиг у рирует только пять народных хозяйств . Это дерево в соответствии с числом сопоставляемых объектов включает 65 уровней . Первый (нижний ) уровень со держит точки , соответствующие каждых стране в отдельности . Соединение двух этих точек н а втором уровне показыв а ет пару стран , наиболее близких по общему типу народных хозяйств . На третьем уровне отмечает ся следующее по сходству парное соотношение стран (как уже упоминалось , в таком со отношении может находиться либо новая пара стран , либо новая страна и уже выявле н ная пара сходных стран ). И так далее до последнего уровня , на котором все изучаемые страны выступают как единая совокупность. В результате применения кластерного анализа были получены следующие пять гру пп стран : n афро-азиатская группа ; n латино-азиатска я группа ; n латино-среднеземнаморская группа ; n группа развитых капит алистических стран (без США ) n США Введение новых индикаторов сверх используемого здесь 31 показателя или замена их другими , естест венно , приводят к изменению результатов класс ификации стран. 2. Деление стран по критерию близости культуры. Как известно маркетинг должен учитывать культуру стран (обычаи , традиции , и т.д .). Посредством кластеризации были получены с ледующие группы стран : n арабские ; n ближневосточные ; n скандинавские ; n германоязычные ; n англоязычные ; n романские европейские ; n латиноамериканские ; n дальневосточные. 3. Разработка п рогноза конъюнктуры рынка цинка . Кластерный анализ играет важную роль на этапе редукции экономико-математической модели товарной конъюнк туры , способствуя облегч ению и упрощению вычислительных процедур , обе спечению большей компактности получаемых результ атов при одновременном сохранении необходимой точности . Применение кластерного анализа дает возможность разбить всю исходную совокупност ь п оказателей конъюнктуры на группы (кластеры ) по соответствующим критериям , облег чая тем самым выбор наиболее репрезентативных показателей. Кластерный анализ широко используется для моделирования рыночной конъюнктуры . Практически основное большинство задач п рогнозирован ия опирается на использование кластерного ан ализа . Например , задача разработки прогноза конъ юнктуры рынка цинка. Первоначально было отобрано 30 основных пок азателей мирового рынка цинка : Х 1 - время Показатели производства : Х 2 - в мире Х 3 - США Х 4 - Европ е Х 5 - Канад е Х 6 - Япони и Х 7 - Австр алии Показатели потребления : Х 8 - в мире Х 9 - США Х 10 - Европ е Х 11 - Канад е Х 12 - Япони и Х 13 - Австр алии Запасы цинка у производителей : Х 14 - в мире Х 15 - США Х 16 - Европ е Х 17 - други х страна х Запасы цинка у потребителей : Х 18 - в США Х 19 - в Англии Х 10 - в Японии Импорт цинковых руд и концентратов (ты с . тонн ) Х 21 - в США Х 22 - в Японии Х 23 - в ФРГ Экспорт цинковых руд и концентратов (т ыс . тонн ) Х 24 - из Канады Х 25 - из Австралии Импорт ц инка (тыс . тонн ) Х 26 - в США Х 27 - в Англию Х 28 - в ФРГ Экспорт цинка (тыс . Тонн ) Х 29 - из Канады Х 30 - из Австралии Для определения конкретных зависимостей был использован апп арат корреляционно-регрессионного анализа . Анализ связей производился н а основе матрицы парных коэффициентов корреляции . Здесь принимал ась гипотеза о нормальном распределении анали зируемых показателей конъюнктуры . Ясно , что r ij являются н е единственно возможным показателем связи исп ользуемых показателей . Необходимость исполь зо вания кластерного анализа связано в этой задаче с тем , что число показателей влияю щих на цену цинка очень велико . Возникает необходимость их сократить по целому ряд у следующих причин : а ) отсутствие полных статистических данны х по всем переменным ; б ) ре зкое усложнение вычислительных процедур при введении в модель большого числа переменных ; в ) оптимальное использование методов регр ессионного анализа требует превышения числа н аблюдаемых значений над числом переменных не менее , чем в 6-8 раз ; г ) стремление к использованию в модели статистически независимых переменных и пр . Проводить такой анализ непосредственно на сравнительно громоздкой матрице коэффициентов корреляции весьма затруднительно . С помощью кластерного анализа всю совокупность конъюнкту рных пере менных можно разбить на груп пы таким образом , чтобы элементы каждого к ластера сильно коррелировали между собой , а представители разных групп характеризовались с лабой коррелированностью . Для решения этой задачи был применен один из агломеративных иерархиче ских алгоритмов кластерного анализа . На каждом ш аге число кластеров уменьшается на один з а счет оптимального , в определенном смысле , объединения двух групп . Критерием объединения является изменение соответствующей функции . В качестве функции такой были ис п ользованы значения сумм квадратов отклоне ний вычисляемые по следующим формулам : ( j = 1, 2, … , m), где j - номер кластера , n - число элемен тов в кластере . r ij - коэффициент парной кор реляции. Таким образом , процессу группировки должн о соответствовать последовательное минимальное в озрастание значения критерия E . На первом этапе первоначальный массив данных представляется в виде множества , сос тоящего из класте ров , включающих в себ я по одному элементу . Процесс группировки начинается с объединения такой пары кластеров , которое приводит к минимальному возрастанию суммы квадратов отклонений . Это требует о ценки значений суммы квадратов отклонений для каждого из во з можных объединений клас теров . На следующем этапе рассматриваются зна чения сумм квадратов отклонений уже для кластеров и т.д . Этот процесс будет остановлен на неко тором шаге . Для этого нужно следить за величиной суммы квадратов отклонений . Рассматри вая последовательность возрастающих величин , можн о уловить скачок ( один или несколько ) в ее динамике , который можно интерпретирова ть как характеристику числа групп “объективно ” существующих в исследуемой совокупности . В приведенном примере скачки имели место п ри числе кластеров равном 7 и 5. Далее снижат ь число групп не следует , т.к . э то приводит к снижению качества модели . По сле получения кластеров происходит выбор пере менных наиболее важных в экономическом смысле и наиболее тесно связанных с выбранным критерием конъюнктуры - в данном случае с котировками Лондонской бир ж и метал лов на цинк . Этот подход позволяет сохрани ть значительную часть информации , содержащейся в первоначальном наборе исходных показателей конъюнктуры.
1Архитектура и строительство
2Астрономия, авиация, космонавтика
 
3Безопасность жизнедеятельности
4Биология
 
5Военная кафедра, гражданская оборона
 
6География, экономическая география
7Геология и геодезия
8Государственное регулирование и налоги
 
9Естествознание
 
10Журналистика
 
11Законодательство и право
12Адвокатура
13Административное право
14Арбитражное процессуальное право
15Банковское право
16Государство и право
17Гражданское право и процесс
18Жилищное право
19Законодательство зарубежных стран
20Земельное право
21Конституционное право
22Конституционное право зарубежных стран
23Международное право
24Муниципальное право
25Налоговое право
26Римское право
27Семейное право
28Таможенное право
29Трудовое право
30Уголовное право и процесс
31Финансовое право
32Хозяйственное право
33Экологическое право
34Юриспруденция
 
35Иностранные языки
36Информатика, информационные технологии
37Базы данных
38Компьютерные сети
39Программирование
40Искусство и культура
41Краеведение
42Культурология
43Музыка
44История
45Биографии
46Историческая личность
47Литература
 
48Маркетинг и реклама
49Математика
50Медицина и здоровье
51Менеджмент
52Антикризисное управление
53Делопроизводство и документооборот
54Логистика
 
55Педагогика
56Политология
57Правоохранительные органы
58Криминалистика и криминология
59Прочее
60Психология
61Юридическая психология
 
62Радиоэлектроника
63Религия
 
64Сельское хозяйство и землепользование
65Социология
66Страхование
 
67Технологии
68Материаловедение
69Машиностроение
70Металлургия
71Транспорт
72Туризм
 
73Физика
74Физкультура и спорт
75Философия
 
76Химия
 
77Экология, охрана природы
78Экономика и финансы
79Анализ хозяйственной деятельности
80Банковское дело и кредитование
81Биржевое дело
82Бухгалтерский учет и аудит
83История экономических учений
84Международные отношения
85Предпринимательство, бизнес, микроэкономика
86Финансы
87Ценные бумаги и фондовый рынок
88Экономика предприятия
89Экономико-математическое моделирование
90Экономическая теория

 Анекдоты - это почти как рефераты, только короткие и смешные Следующий
Сказки новой России.

Поехали как-то кореец, американец и хохол на олимпиаду. Кореец и американец вместе заработали для России половину золотых медалей, а у хохла спина заболела.
Anekdot.ru

Узнайте стоимость курсовой, диплома, реферата на заказ.

Обратите внимание, реферат по математике "Кластерный анализ в задачах социально-экономического прогнозирования", также как и все другие рефераты, курсовые, дипломные и другие работы вы можете скачать бесплатно.

Смотрите также:


Банк рефератов - РефератБанк.ру
© РефератБанк, 2002 - 2016
Рейтинг@Mail.ru