Кластерный аналіз в завданнях соціально-економічного прогнозирования

Тип работы:
Реферат
Предмет:
Физико-математические науки


Узнать стоимость

Детальная информация о работе

Выдержка из работы

Глава 1.

КЛАСТЕРНИЙ АНАЛІЗ У ЗАВДАННЯХ СОЦІАЛЬНО-ЕКОНОМІЧНОГО ПРОГНОЗИРОВАНИЯ

1. Введення у кластерний анализ.

При аналізі та прогнозуванні соціально-економічних явищ дослідник частенько стикається з багатомірністю їхні описи. Це відбувається за виконанні завдання сегментування ринку, побудові типології країн з досить великому числу показників, прогнозування кон’юнктури ринку окремих товарів, вивченні і прогнозуванні економічної депресії і багатьох інших проблем.

Методи багатовимірного аналізу — найдійовіший кількісний інструмент дослідження соціально-економічних процесів, описуваних великою кількістю характеристик. До них належать кластерний аналіз, таксономія, розпізнавання образів, факторний анализ.

Кластерний аналіз найяскравіше відбиває риси багатовимірного аналізу, у класифікації, факторний аналіз — у дослідженні связи.

Іноді підхід кластерного аналізу називають у літературі чисельної таксономией, чисельної класифікацією, розпізнаванням з самонавчанням і т.д.

Перше застосування кластерний аналіз знайшов у соціології. Назва кластерний аналіз походить від англійського слова cluster — гроно, скупчення. Вперше у 1939 було визначено предмет кластерного аналізу та зроблено його опис дослідником Трионом. Головне призначення кластерного аналізу — розбивка безлічі досліджуваних об'єктів і ознак на однорідні у відповідній розумінні групи чи кластери. Це означає, що вирішується завдання класифікації даних, і виявлення відповідної структури у ній. Методи кластерного аналізу можна використовувати в різних випадках, навіть у тому випадку, коли йдеться про простий угрупованню, коли всі зводиться до утворення груп по кількісному сходству.

Велике гідність кластерного аналізу, у тому, що вона дозволяє виробляти розбивка об'єктів за одному параметру, а, по цілому набору ознак. З іншого боку, кластерний аналіз на відміну більшості математико-статистичних методів не накладає ніяких обмежень на цей вид аналізованих об'єктів, і дозволяє розглядати безліч вихідних даних практично довільній природи. Це має значення, наприклад, для прогнозування кон’юнктури, коли показники мають різноманітний вид, що ускладнює застосування традиційних економетричних подходов.

Кластерний аналіз дозволяє розглядати досить великий обсяг інформації та різко скорочувати, стискати великі масиви соціально- економічної інформації, робити їх компактними і наглядными.

Важливе значення кластерний аналіз має стосовно совокупностям часових рядів, які характеризують економічну розвиток (наприклад, общехозяйственной і товарної кон’юнктури). Тут можна виділяти періоди, коли значення відповідних показників були досить близькими, а також визначати групи часових рядів, динаміка найбільш схожа.

Кластерний аналіз можна використовувати циклічно. І тут дослідження виробляється до того часу, коли будуть досягнуто необхідні результати. У цьому кожен цикл тут здатна родити інформацію, яка здатна сильно змінити спрямованість і подальшого застосування кластерного аналізу. Цей процес відбувається можна системою із другого связью.

У завданнях соціально-економічного прогнозування дуже перспективне поєднання кластерного аналізу коїться з іншими кількісними методами (наприклад, з регрессионным анализом).

Як людина інший метод, кластерний аналіз має певні вади суспільства і обмеження: Зокрема, склад парламенту й кількість кластерів залежить від выбираемых критеріїв розбивки. При зведенні вихідного масиву даних до більш компактного виду можуть бути певні спотворення, а також можуть губитися індивідуальні риси окремих об'єктів з допомогою заміни їх характеристиками узагальнених значень параметрів кластера. При проведенні класифікації об'єктів ігнорується часто-густо можливість відсутності у аналізованої сукупності будь-яких значень кластеров.

У кластерному аналізі вважається, що: а) обрані характеристики допускають у принципі бажане розбивка на кластери; б) одиниця виміру (масштаб) обрані правильно.

Вибір масштабу грає великій ролі. Зазвичай, дані нормалізують відніманням середнього та розподілом на стандартне отклоненение, отже дисперсія виявляється рівної единице.

2. Завдання кластерного анализа.

Завдання кластерного аналізу у тому, щоб у підставі даних, що містяться в безлічі Х, розбити безліч об'єктів G на m (m — ціле) кластерів (підмножин) Q1, Q2, …, Qm, те щоб кожен об'єкт Gj належав одному і лише подмножеству розбивки і щоб об'єкти, належать одному й тому кластеру, було співпадало, тоді, як об'єкти, належать різним кластерам були разнородными.

Наприклад, нехай G включає n країн, з яких характеризується ВНП душу населення (F1), числом М автомашин на 1 тисячу чоловік (F2), душовим споживанням електроенергії (F3), душовим споживанням стали (F4) і т.д. Тоді Х1 (вектор вимірів) є набір зазначених характеристик перша країни, Х2 — для другий, Х3 для третьої, тощо. Завдання у тому, щоб розбити країни з рівню развития.

Рішенням завдання кластерного аналізу є розбивки, задовольняють деякому критерію оптимальності. Цей критерій може являти собою певний функціонал, виражає рівні бажаності різних разбиений і угруповань, яку називають цільової функцією. Наприклад, як цільової функції то, можливо узята внутригрупповая сума квадратів відхилення: [pic] де xj — є виміру j-го объекта.

Аби вирішити завдання кластерного аналізу необхідно визначити поняття й разнородности.

Зрозуміло те, що об'єкти (-ый і j-ый потрапляли в один кластер, коли відстань (віддаленість) між точками Х (і Хj було досить маленькою і нічого потрапляли в різні кластери, коли цей період було б досить великою. Отже, потрапляння до чи різні кластери об'єктів визначається поняттям відстані між Х (і Хj з Ер, де Ер — р- мірне евклидово простір. Неотрицательная функція d (Х (, Хj) називається функцією відстані (метрикою), якщо: а) d (Хi, Хj) (0, всім Х (і Хj з Ер б) d (Хi, Хj) = 0, тоді й тільки тоді, коли Х (= Хj в) d (Хi, Хj) = d (Хj, Х () р) d (Хi, Хj) (d (Хi, Хk) + d (Хk, Хj), де Хj; Хi і Хk — будь-які три вектора з Ер.

Значення d (Хi, Хj) для Хi і Хj називається відстанню між Хi і Хj і еквівалентно відстані між Gi і Gj відповідно обраним характеристикам (F1, F2, F3, …, Fр).

Найчастіше вживаються такі функції відстаней: 1. Евклидово відстань d2(Хi, Хj) = [pic] 2. l1 — норма d1(Хi, Хj) = [pic] 3. Сюпремум — норма d ((Хi, Хj) = sup[pic] k = 1, 2, …, р 4. lp — норма dр (Хi, Хj) = [pic]

Евклидова метрика є найпопулярнішої. Метрика l1 найбільш легка для обчислень. Сюпремум-норма легко вважається спеціалістом і включає у собі процедуру упорядкування, а lp — норма охоплює функції відстаней 1, 2, 3,.

Нехай n вимірів Х1, Х2,…, Хn представлені у вигляді матриці даних розміром p (n:

[pic]

Тоді відстань між парами векторів d (Х (, Хj) може бути представлені у вигляді симетричній матриці расстояний:

[pic]

Поняттям, протилежним відстані, є поняття подібності між об'єктами G (. і Gj. Неотрицательная речовинна функція S (Х (; Хj) = S (j називається мірою подібності, якщо: 1) 0(S (Хi, Хj)(1 для Х ((Хj 2) S (Хi, Хi) = 1 3) S (Хi, Хj) = S (Хj, Х ()

Пари значень заходів подібності можна поєднати в матрицю сходства:

[pic]

Значимість Sij називають коефіцієнтом сходства.

1.3. Методи кластерного анализа.

Сьогодні досить багато методів кластерного аналізу. Зупинимося деяких із них (нижче наведені методи прийнято називати методами мінімальної дисперсії). Нехай Х — матриця спостережень: Х = (Х1, Х2,…, Хu) і квадрат евклидова відстані між Х (і Хj визначається за такою формулою: [pic]

1) Метод повних связей.

Суть цього методу у цьому, що дві об'єкта, що належать одному й тому ж групі (кластеру), мають коефіцієнт подібності, який менше деякого граничного значення P. S. У термінах евклидова відстані d це, що відстань між двома точками (об'єктами) кластера на повинен перевищувати деякого граничного значення h. Отже, h визначає максимально припустимий діаметр підмножини, утворить кластер.

2) Метод максимального локального расстояния.

Кожен об'єкт сприймається як одноточечный кластер. Об'єкти групуються з такого правилу: два кластера об'єднуються, якщо максимальне відстань між точками одного кластера та крапками іншого мінімально. Процедура складається з n — 1 кроків і чи результатом є розбивки, які збігаються з різними розбивками у минулому методі для будь-яких граничних значений.

3) Метод Ворда.

У цьому вся методі як цільової функції застосовують внутригрупповую суму квадратів відхилень, що є нізащо інше, як сума квадратів відстаней між кожної точкою (об'єктом) і середній із кластера, який містить цей об'єкт. На кожен крок об'єднуються такі два кластера, що призводять до мінімального збільшення цільової функції, тобто. внутрішньогруповий суми квадратів. Цей метод спрямовано об'єднання близько розташованих кластеров.

4) Центроидный метод.

Відстань між двома кластерами окреслюється евклидово відстань між центрами (середніми) цих кластерів: d2 ij = ((X -(Y)Т ((X -(Y) Кластеризація йде поетапно кожному з n-1 кроків об'єднують два кластера G і (, мають мінімальне значення d2ij Якщо n1 значно більше n2, то центри об'єднання двох кластерів близькі друг до друга і характеристики другого кластера при об'єднанні кластерів практично ігноруються. Іноді його іноді називають ще методом зважених групп.

1.4 Алгоритм послідовної кластеризации.

Розглянемо? = (?1, ?2, … ?n) як безліч кластерів {?1}, {?2},…{?n}. Виберемо дві з них, наприклад,? (і? j, які у деякому сенсі близькі друг до друга і об'єднаємо їх до одного кластер. Нове безліч кластерів, перебуває вже з n-1 кластерів, будет:

{?1}, {?2}…, {? (,? j}, …, {?n}.

повторюючи процес, одержимо послідовні безлічі кластерів, які з (n-2), (n-3), (n-4) тощо. кластерів. Наприкінці процедури можна отримати кластер, що з n об'єктів і співпадаючий з початковою безліччю? = (?1, ?2, … ?n).

Як заходи відстані візьмемо квадрат евклідовій метрики d (j2. і обчислимо матрицю D = {di j2}, де di j2 — квадрат відстані между

? (і? j:

| |?1 |?2 |?3 |… |?n | |?1 |0 |d122 |d132 |… |d1n2 | |?2 | |0 |d232 |… |d2n2 | |?3 | | |0 |… |d3n2 | |… | | | |… |… | |?n | | | | |0 |

Нехай відстань між? і і? j буде мінімальним: d (j2 = min {di j2, і (j}. Створюємо з допомогою? і і? j новий кластер

{? і, ? j}. Побудуємо нову ((n-1), (n-1)) матрицю расстояния

| |{? і, ?|?1 |?2 |?3 |… |?n | | |j} | | | | | | |{? і; ?|0 |di j21 |di j22 |di j23 |… |di j2n | |j} | | | | | | | |?1 | |0 |d122 |d13 |… |d12n | |?2 | | |0 |di j21 |… |d2n | |?3 | | | |0 |… |d3n | | | | | | | | | |?n | | | | | |0 |

(n-2) рядки для останньої матриці взяті з попередньої, а перша рядок обчислена наново. Обчислення може бути зведені до мінімуму, якщо вдасться висловити di j2k, k = 1, 2,…, n; (k (і (j) через елементи початкової матрицы.

Від Початку визначено відстань лише між одноэлементными кластерами, але визначати відстані та між кластерами, що містять більш як один елемент. Це можна зробити у різний спосіб, і залежно від обраного способу ми отримують алгоритми кластер аналізу з різними властивостями. Можна, наприклад, покласти відстань між кластерів і + j і деяких інших кластерів k, рівним середньому арифметичному з відстаней між кластерами і і k і кластерами j і k: di+j, k = Ѕ (di k + dj k).

Але також визначити di+j, k як мінімальне з цих двох відстаней: di+j, k = min (di k + dj k).

Отже, описаний перший крок було роботи агломеративного ієрархічного алгоритму. Наступні кроки аналогичны.

Доволі-таки обсяжний клас алгоритмів можна отримати, для перерахунку відстаней використовувати таку загальну формулу: di+j, k = A (w) min (dik djk) + B (w) max (dik djk), где

A (w) = [pic], якщо dik (djk

A (w) = [pic], якщо dik (djk

B (w) =[pic], якщо d (k (djk

B (w) = [pic], якщо dik (djk де ni і nj — число елементів в кластерах і і j, а w — вільний параметр, вибір якого визначає конкретний алгоритм. Наприклад, при w = 1 ми маємо, так званий, алгоритм «середньої зв’язку», котрій формула перерахунку відстаней набуває вигляду: di+j, k = [pic]

У разі відстань між двома кластерами кожному кроці роботи алгоритму виявляється рівним середньому арифметичному з відстаней між всіма такими парами елементів, що перший елемент пари належить до одному кластеру, інший — до другому.

Наочний сенс параметра w стає зрозуміло, якщо покласти w ((. Формула перерахунку відстаней набуває вигляду: di+j, k = min (d (, k djk)

Це буде не надто званий алгоритм «найближчого сусіда», дозволяє виділяти кластери як завгодно складної форми за умови, що різні частини таких кластерів з'єднані ланцюжками близьких друг до друга елементів. У тому випадку відстань між двома кластерами кожному кроці роботи алгоритму виявляється рівним відстані між двома найближчими елементами, які належать до цих двом кластерам.

Досить часто припускають, що початкові відстані (відмінності) між группируемыми елементами задано. У деяких завданнях це справді такий. Проте, задаються лише об'єкти та його характеристики і матрицю відстаней будують виходячи з цих даних. Залежно від цього, обчислюються чи відстані між об'єктами чи торгівлі між характеристиками об'єктів, використовують різні способы.

Що стосується кластер аналізу об'єктів найчастіше мірою відмінності служить або квадрат евклидова відстані [pic] (де xih, xjh — значення h-го ознаки для i-го і j-го об'єктів, а m — число характеристик), або саме евклидово відстань. Якщо ознаками приписується різний вагу, то ці ваги можна врахувати при обчисленні відстані [pic] Іноді як відмінності використовується відстань, вычисляемое по формулі: [pic] котрі називають: «хэмминговым », «манхеттенським «чи «сити-блок «расстоянием.

Природною мірою подібності характеристик об'єктів у багатьох завданнях є коефіцієнт кореляції з-поміж них [pic] де mi, mj ,(і ,(j — відповідно середні і среднеквадратичные відхилення для характеристик і і j. Мірою різницю між характеристиками може бути величина 1 — r. У деяких завданнях знак коефіцієнта кореляції несуттєвий і лише від вибору одиниця виміру. У цьому вся разі за заходи різницю між характеристиками використовується (1 — ri j (

1.5 Кількість кластеров.

Дуже важливим питанням є проблема вибору потрібної кількості кластерів. Іноді можна m число кластерів вибирати апріорно. Однак загалом разі їх кількість визначається процесі розбивки безлічі на кластеры.

Проводилися дослідження Фортьером і Соломоном, і це встановлено, що кількість кластерів має бути прийняте задля досягнення ймовірності (того, що знайдено найкраще розбивка. Отже, оптимальне число разбиений є функцією заданої частки (найкращих чи певному сенсі допустимих разбиений в багатьох всіх можливих. Загальне розсіювання буде тим більше коштів, що стоїть частка (допустимих разбиений. Фортьер і Соломон розробили таблицю, якими можна знайти число необхідних разбиений. P. S ((((((залежно від (і ((де (- можливість, що знайдено найкраще розбивка, ((- частка найкращих разбиений у числі разбиений) Причому ролі заходи різнорідності використовується не міра розсіювання, а міра приналежності, введена Хользенгером і Харманом. Таблиця значень P. S (((() наводиться ниже.

Таблиця значень P. S (((()

|((|0. 20 |0. 10 |0. 05 |0. 01 |0. 001 |0. 0001 | |0. 20 |8 |11 |14 |21 |31 |42 | |0. 10 |16 |22 |29 |44 |66 |88 | |0. 05 |32 |45 |59 |90 |135 |180 | |0. 01 |161 |230 |299 |459 |689 |918 | |0. 001 |1626 |2326 |3026 |4652 |6977 |9303 | |0. 0001 |17 475 |25 000 |32 526 |55 000 |75 000 |100 000 |

Досить часто критерієм об'єднання (числа кластерів) стає зміна відповідної функції. Наприклад, суми квадратів відхилень: [pic]

Процесу угруповання має відповідати тут послідовне мінімальне зростання значення критерію E. Наявність різкого стрибка в значенні E можна інтерпретувати як характеристику числа кластерів, об'єктивно що у досліджуваної совокупности.

Отже, другий спосіб визначення найкращого числа кластерів зводиться до виявлення стрибків, визначених фазовим переходом від сильно пов’язаного до слабосвязанному стану объектов.

1.6 Дендограммы.

Найвідоміший метод уявлення матриці відстаней чи подібності грунтується ідеї дендограммы чи діаграми дерева. Дендограмму можна з’ясувати, як графічне зображення результатів процесу послідовної кластеризації, здійснювану в термінах матриці відстаней. З допомогою дендограммы можна графічно чи геометрично зобразити процедуру кластеризації за умови, що цю процедуру оперує тільки з елементами матриці відстаней чи сходства.

Є багато способів побудови дендограмм. У дендограмме об'єкти розташовуються вертикально зліва, результати кластеризації - справа. Значення відстаней чи подібності, відповідальні будовою нових кластерів, зображуються по горизонтальній прямий поверх дендограмм. [pic]

Рис1

На малюнку 1 показаний лише один приклад дендограммы. Рис 1 відповідає випадку шести об'єктів (n=6) і k характеристик (ознак). Об'єкти Проте й З найбільш близькі і тому об'єднують у один кластер на рівні близькості, рівному 0,9. Об'єкти D та О об'єднуються за 23−24-відсоткового рівня 0,8. Тепер маємо 4 кластера:

(А, З), (F), (D, E), (B).

Далі утворюються кластери (А, З, F) і (E, D, B), відповідні рівню близькості, рівному 0,7 і 0,6. Остаточно всі об'єкти групуються в один кластер за 23−24-відсоткового рівня 0,5.

Вигляд дендограммы залежить від вибору заходи подібності чи відстані між об'єктом і кластерів і методу кластеризації. Найважливішим моментом є вибір заходи подібності чи заходи відстані між об'єктом і кластером.

Кількість алгоритмів кластерного аналізу дуже велика. Усі їхні можна підрозділити на ієрархічні і неиерархические.

Ієрархічні алгоритми пов’язані з побудовою дендограмм і діляться на: а) агломеративные, характеризуемые послідовним об'єднанням вихідних елементів і відповідатиме зменшенням числа кластерів; б) дивизимные (ділені), у яких число кластерів зростає, починаючи з однієї, у результаті утворюється послідовність расщепляющих групп.

Алгоритми кластерного аналізу мають сьогодні хорошу програмну реалізацію, що дозволяє вирішити свої завдання найбільшої размерности.

1.7 Данные

Кластерний аналіз можна використовувати до интервальным даним, частотах, бінарними даним. Важливо, щоб перемінні змінювалися у порівнянних шкалах.

Неоднорідність одиниць вимірювання, і що випливає звідси неможливість обгрунтованого висловлювання значень різних показників щодо одного масштабі призводить до того, що обсяг відстаней між точками, що відбивають становище об'єктів у просторі їх властивостей, виявляється яка від довільно обраного масштабу. Щоб усунути неоднорідність виміру вихідних даних, всі ці значення попередньо нормуються, тобто. виражаються через ставлення цих значень до деякою величині, що відбиває певних властивостей цього показника. Нормування вихідних даних для кластерного аналізу іноді проводиться у вигляді розподілу вихідних величин на середньоквадратичне відхилення відповідних показників. Інший спосіб зводитися до вирахування, з так званого, стандартизованого вкладу. Його ще називають Z-вкладом.

Z-вклад показує, скільки стандартних відхилень відокремлює дане спостереження від середнього значения:

[pic], де xi — значення даного спостереження, — середнє, P. S — стандартне отклонение.

Середнє для Z-вкладов є нульовим і стандартне відхилення одно 1.

Стандартизація дозволяє порівнювати спостереження із різних розподілів. Якщо розподіл перемінної є нормальним (чи близькими до нормальному), й відповідна середня і дисперсія відомі чи оцінюються по великим виборним, то Z-вклад для спостереження забезпечує більш специфічну інформацію про його расположении.

Зауважимо, що методи нормування означають визнання всіх ознак рівноцінними з погляду з’ясування подібності аналізованих об'єктів. Вже зазначалося, що стосовно економіки визнання рівноцінності різних показників здається виправданим не лише. Було б, бажаним поруч із нормуванням надати кожному з показників вагу, який відбиває його значимість під час встановлення подібностей і відмінностей объектов.

У цій ситуації доводиться вдаватися до способу визначення ваги окремих показників — опитування експертів. Наприклад, під час вирішення завдання про класифікації країн за рівнем економічного розвитку використовувалися результати опитування 40 провідних московських фахівців із проблем розвинених країн по десятибальною шкалою: узагальнені показники соціально-економічного розвитку — 9 балів; показники галузевого розподілу працюючого населення — 7 балів; показники поширеності найманої праці - 6 балів; показники, що характеризують людський елемент продуктивних сил — 6 балів; показники розвитку матеріальних продуктивних сил — 8 балів; показник державних витрат — 4балла;

«воєнно-економічні» показники — 3 бала; соціально-демографічні показники — 4 балла.

Оцінки експертів відрізнялися порівняно високої устойчивостью.

Експертні оцінки дають відоме основу визначення важливості індикаторів, які входять у той чи інший групу показників. Множення нормованих значень показників на коефіцієнт, відповідний середньому балу оцінки, дає змоги розраховувати відстані між точками, що відбивають становище країн багатомірному просторі, з урахуванням неоднакового ваги їх признаков.

Досить часто під час вирішення таких завдань використовують чимало, а через два розрахунку: перший, де всі ознаки вважаються рівнозначними, другий, де їм придаются різні ваги відповідно до середніми значеннями експертних оценок.

1.8. Застосування кластерного анализа.

Розглянемо деякі докладання кластерного анализа.

1. Розподіл країн на групи з рівню развития.

Досліджувалися 65 країн по 31 показнику (національний дохід на свою душу населення, частка населення зайнятого у промисловості в %, накопичення на свою душу населення, частка населення, зайнятого сільському господарстві в %, середня тривалість життя, число автомашин на 1 тис. жителів, чисельність Збройних Сил на 1 млн. жителів, частка ВВП промисловості, у %, частка ВВП сільського господарства за %, і т.д.)

Кожна із багатьох країн виступає у цьому розгляді як об'єкт, характерне певними значеннями 31 показника. Відповідно вони можуть бути як точок в 31-мерном просторі. Таке простір зазвичай називається простором властивостей досліджуваних об'єктів. Порівняння відстані між тими точками відбиватиме ступінь близькості аналізованих країн, їх подібність друг з одним. Соціально-економічний сенс такої розуміння подібності означає, що країни вважаються тим паче схожими, що менше різницю між однойменними показниками, з допомогою що вони описываются.

Перший крок такого аналізу залежить від виявленні пари народних господарств, врахованих у матриці подібності, відстань між якою є найменшим. Це, вочевидь, будуть найбільш подібні, схожі економіки. У наступному розгляді обидві ці країни вважаються єдиної групою, єдиним кластерів. Відповідно вихідна матриця перетвориться отже, її елементами стають відстані поміж усіма можливими парами не 65, а 64 об'єктами — 63 економіки та знову перетвореного кластера — умовного об'єднання двох найбільш схожих країн. З вихідної матриці подібності викидаються рядки — і стовпчики, відповідні відстаней від пари країн, які увійшли до смакоту, до решти, зате додаються рядок і стовпець, містять відстань між кластерів, одержаними під час об'єднанні та ін странами.

Відстань між знову отриманим кластерів і країнами потрібно було рівним середньому з відстаней між останніми, і двома країнами, які становлять новий кластер. Інакше кажучи, об'єднана група країн сприймається як ціле з характеристиками, приблизно рівними середнім з характеристик назв стран.

Другий крок аналізу залежить від розгляді реформованій таким шляхом матриці з 64 рядками і стовпчиками. Знову виявляється пара економік, відстань між якими має найменше значення, і вони, як і в першому випадку, зводяться воєдино. У цьому найменше відстань може виявитися як пари країн, і між будь-якої країною і об'єднанням країн, отриманим попередньому этапе.

Подальші процедури аналогічні описаним вище: кожному етапі матриця перетвориться тож із неї виключаються два шпальти і ще дві рядки, містять відстань до об'єктів (пар країн, або об'єднань — кластерів), зведених воєдино на попередньої стадії; виключені рядки — і стовпчики замінюються стовпцем і рядком, що містять відстані від нових об'єднань стосується решти об'єктів; далі у зміненій матриці виявляється пара найбільш близьких об'єктів. Аналіз триває до вичерпання матриці (т. е. до того часу, доки всі країни не виявляться зведеними за одну ціле). Узагальнені результати аналізу матриці можна як дерева подібності (дендограммы), подібного описаного вище, з тією різницею, що дерево подібності, що відбиває відносну близькість всіх аналізованих нами 65 країн, набагато складніше схеми, у якій фігурує тільки п’ятьох народних господарств. Це дерево відповідно до числом сопоставляемых об'єктів включає 65 рівнів. Перший (нижній) рівень містить точки, відповідні кожних країні окремішності. Поєднання цих двох точок на другому рівні показує пару країн, найближчих за загальним типу народних господарств. На рівні відзначається таке за подібністю парне співвідношення країн (як згадувалося, у тому співвідношенні може знаходитися чи нова пара країн, або нова країна та вже виявлена пара подібних країн). І до останнього рівня, у якому все студійовані країни виступають як одна совокупность.

Через війну застосування кластерного аналізу було отримано такі п’ять груп країн: афро-азиатская група; латино-азиатская група; латино-среднеземнаморская група; група розвинених капіталістичних країн (без США) США

Запровадження нових індикаторів понад використовуваного тут 31 показника чи заміна їх іншими, природно, приводять до зміни результатів класифікації стран.

2. Розподіл країн критерієм близькості культуры.

Як відомо маркетинг має враховувати культуру країн (звичаї, традиції, і т.д.).

З допомогою кластеризації було отримано такі групи країн: арабські; близькосхідні; скандинавські; германоязычные; англомовні; романські європейські; латиноамериканські; дальневосточные.

3. Розробка прогнозу кон’юнктури ринку цинка.

Кластерний аналіз відіграє на етапі редукції экономико- математичну модель товарної кон’юнктури, сприяючи полегшенню і спрощення обчислювальних процедур, забезпечення більшої компактності отриманих результатів за одночасного збереженні необхідної точності. Застосування кластерного аналізу дає можливість розбити всю вихідну сукупність показників кон’юнктури на групи (кластери) по відповідних критеріїв, полегшуючи цим вибір найбільш репрезентативних показателей.

Кластерний аналіз широко використовується для моделювання ринкової кон’юнктури. Практично основне більшість завдань прогнозування спирається використання кластерного анализа.

Наприклад, завдання розробки прогнозу кон’юнктури ринку цинка.

Спочатку відібрали 30 основних показників світового фінансового ринку цинку: Х1 — час Показники виробництва: Х2 — у світі Х3 — США Х4 — Європі Х5 — Канаді Х6 — Японії Х7 — Австралії Показники споживання: Х8 — у світі Х9 — США Х10 — Європі Х11 — Канаді Х12 — Японії Х13 — Австралії Запаси цинку у виробників: Х14 — у світі Х15 — США Х16 — Європі Х17 — інших країнах Запаси цинку в споживачів: Х18 — США Х19 — в Англії Х10 — у Японії Імпорт цинкових руд і концентратів (тис. тонн) Х21 — США Х22 — у Японії Х23 — до ФРН Експорт цинкових руд і концентратів (тис. тонн) Х24 — з Канади Х25 — з Австралії Імпорт цинку (тис. тонн) Х26 — США Х27 — до Англії Х28 — до ФРН Експорт цинку (тис. Тонн) Х29 — з Канади Х30 — з Австралии

Для визначення конкретних залежностей використали апарат корреляционно-регрессионного аналізу. Аналіз зв’язків проводився з урахуванням матриці парних коефіцієнтів кореляції. Тут приймалася гіпотеза — про нормальному розподілі аналізованих показників кон’юнктури. Зрозуміло, що rij не є єдиним можливим показником зв’язку використовуваних показників. Необхідність використання кластерного аналізу пов’язано цієї завданню про те, що кількість показників які впливають ціну цинку дуже велике. Постає і необхідність їх скоротити за цілою низкою наступних причин: а) відсутність повних статистичних даних із всім змінним; б) різке ускладнення обчислювальних процедур під час введення в модель значної частини змінних; до оптимального використання методів регресійного аналізу вимагає перевищення числа можна побачити значень над числом змінних щонайменше, ніж у 6−8 раз; р) прагнення використання у моделі статистично незалежних змінних і пр.

Проводити такий аналіз безпосередньо на порівняно громіздкою матриці коефіцієнтів кореляції дуже важко. З допомогою кластерного аналізу всю сукупність кон’юнктурних змінних може бути розбитий на групи в такий спосіб, щоб елементи кожного кластера сильно корелювали між собою, а представники різних груп характеризувалися слабкої коррелированностью.

Аби вирішити це завдання застосували одне із агломеративных ієрархічних алгоритмів кластерного аналізу. На кожен крок число кластерів зменшується однією з допомогою оптимального, у сенсі, об'єднання дві групи. Критерієм об'єднання є зміна відповідної функції. Як функції такий було використано значення сум квадратів відхилень вычисляемые за такими формулам:

[pic]

(j = 1, 2, …, m), де j — номер кластера, n — число елементів в кластері. rij — коефіцієнт парної корреляции.

Отже, процесу угруповання має відповідати послідовне мінімальне зростання значення критерію E.

У першому етапі початковий масив даних представляється як безлічі, що складається з кластерів, які включають у собі за одним елементу. Процес угруповання починається з об'єднання такий пари кластерів, яке призводить до мінімального зростанню суми квадратів відхилень. Це оцінки значень суми квадратів відхилень кожного з можливих [pic] об'єднань кластерів. На наступний етап розглядаються значення сум квадратів відхилень вже для [pic] кластерів тощо. Цей процес відбувається буде зупинено на деякому кроці. Треба лише ознайомитися з величиною суми квадратів відхилень. Розглядаючи послідовність зростаючих величин, можна вловити стрибок (чи кілька) у її динаміці, що можна інтерпретувати як характеристику числа груп «об'єктивно» що у досліджуваної сукупності. У наведеному прикладі стрибки мали місце при числі кластерів рівному 7 і п’яти. Далі знижувати число груп годі було, т.к. усе веде до їх зниження якості моделі. Після набуття кластерів відбувається вибір змінних найважливіших би в економічному сенсі програми та найтісніше що з обраним критерієм кон’юнктури — у цьому випадку з котируваннями Лондонській біржі металів на цинк. Такий підхід дозволяє зберегти значну частину інформації, котра міститься в початковому наборі вихідних показників конъюнктуры.

ПоказатьСвернуть
Заполнить форму текущей работой