Методи за намаляване на размерността на данните. Въведение в намаляването на размерността

Машинното обучение не е нищо повече от област на обучение, която позволява на компютрите да „учат“ като хората, без да е необходимо изрично програмиране.

Какво е прогнозно моделиране:Прогнозното моделиране е вероятностен процес, който ни позволява да прогнозираме резултати въз основа на определени предиктори. Тези предиктори са основно функции, които влизат в действие при определяне на крайния изход, т.е. изхода на модела.

Какво е намаляване на размерността?

При проблемите с класификацията на машинното обучение често има твърде много фактори, върху които се прави окончателната класификация. Тези фактори са основно променливи, наречени черти. Колкото повече функции, толкова по-трудно е да се визуализира комплектът за обучение и след това да се работи върху него. Понякога повечето от тези функции са взаимосвързани и следователно излишни. Тук влизат в действие алгоритмите за намаляване на размерността. Намаляването на размерността е процесът на намаляване на броя на разглежданите случайни променливи чрез получаване на набор от главни променливи. Това може да се раздели на избор на функция и извличане на функция.

Защо намаляването на размерността е важно при машинното обучение и прогнозното моделиране?

Интуитивен пример за намаляване на размерността може да бъде обсъден с помощта на прост проблем за класифициране на имейли, където трябва да определим дали даден имейл е спам или не. Това може да включва голям брой функции, като например дали имейлът има обща заглавка, съдържанието на имейла, дали имейлът използва шаблон и т.н. Някои от тези функции обаче може да се припокриват.В друго състояние има Проблемът с класификацията, който зависи както от влажността, така и от валежите, може да се обобщи в една основна характеристика, тъй като и двете по-горе са силно свързани. Следователно можем да намалим броя на функциите в такива проблеми. Трудно е да си представим проблем с триизмерна класификация, докато проблем с двумерна класификация може да бъде съпоставен с обикновено двуизмерно пространство, а проблем с едномерна класификация - с проста линия. Фигурата по-долу илюстрира тази концепция, където пространството на 3D функции е разделено на две пространства на 1D характеристики и по-късно, ако се установи, че са корелирани, броят на функциите може да бъде намален допълнително.

Компоненти за намаляване на размерността

Има два компонента за намаляване на размерността:

  • Избор на функция:в този раздел се опитваме да намерим подмножество от оригиналния набор от променливи или функции, за да получим по-малко подмножество, което може да се използва за моделиране на проблема. Това обикновено включва три начина:
    1. Филтър
    2. обвивка
    3. изпълнени
  • Извличане на функции:Това редуцира данните в пространство с големи размери до по-ниско измерение, тоест пространство с по-нисък номер. размери.

Методи за намаляване на размерността

Различни техники, използвани за намаляване на размерността, включват:

  • Анализ на основните компоненти (PCA)
  • Линеен дискриминантен анализ (LDA)
  • Генерализиран дискриминантен анализ (GDA)

Намаляването на размерността може да бъде линейно или нелинейно в зависимост от използвания метод. По-долу е разгледан основен линеен метод, наречен анализ на главните компоненти или PCA.

Анализ на главните компоненти

Този метод е въведен от Карл Пиърсън. Работи при условие, че докато данните в пространство с по-високо измерение се картографират към данни в пространство с по-ниско измерение, дисперсията на данните в пространството с по-ниско измерение трябва да бъде максимално увеличена.

Тя включва следните стъпки:

  • Конструирайте ковариационна матрица на данните.
  • Изчислете собствените вектори на тази матрица.
  • Собствените вектори, съответстващи на най-големите собствени стойности, се използват за възстановяване на по-голямата част от дисперсията в оригиналните данни.

Следователно оставаме с по-малко собствени вектори и може да е настъпила загуба на някои данни в процеса. Но най-важните отклонения трябва да бъдат запазени от останалите собствени вектори.

Ползи от намаляването на размерността

  • Това помага при компресирането на данни и следователно намалява пространството за съхранение.
  • Това намалява времето за изчисление.
  • Също така помага за премахване на излишни функции, ако има такива.

Недостатъци на намаляването на размерността

  • Това може да доведе до загуба на някои данни.
  • PCA има тенденция да намира линейни корелации между променливите, което понякога е нежелателно.
  • PCA се проваля в случаите, когато средната стойност и ковариацията не са достатъчни за дефиниране на набори от данни.
  • Може да не знаем колко основни компонента да следваме на практика, важат някои правила.

Тази статия е предоставена от Ананей Уберой. Ако сте като GeeksforGeeks и искате да допринесете, можете също да напишете статия с помощта наcontribut.geeksforgeeks.org или като изпратите статията по пощата [имейл защитен]. Вижте вашата статия да се появява на началната страница на GeeksforGeeks и помогнете на други маниаци.

Намаляване на данните

В аналитичните технологии намаляването на размерността на данните се отнася до процеса на преобразуването им във форма, която е най-удобна за анализ и интерпретация. Обикновено това се постига чрез намаляване на техния обем, намаляване на броя на използваните признаци и разнообразието на техните значения.

Често анализираните данни са непълни, когато отразяват лошо зависимостите и моделите на изследваните бизнес процеси. Причините за това могат да бъдат недостатъчен брой наблюдения, липса на знаци, които отразяват основните свойства на обектите. В този случай се прилага обогатяване на данни.

Намаляването на размерността се прилага в обратния случай, когато данните са излишни. Излишък възниква, когато проблем с анализа може да бъде решен със същото ниво на ефективност и точност, но с помощта на по-малко измерение на данните. Това ви позволява да намалите времето и изчислителните разходи за решаване на проблема, като направите данните и резултатите от техния анализ по-интерпретируеми и разбираеми за потребителя.

Намаляването на броя на наблюденията на данни се използва, ако може да се получи решение със сравнимо качество от по-малък размер на извадката, като по този начин се намаляват изчислителните и времевите разходи. Това е особено вярно за алгоритми, които не са мащабируеми, където дори малко намаляване на броя на записите води до значителна печалба в изчислителното време.

Има смисъл да се намали броят на функциите, когато информацията, необходима за висококачествено решение на проблема, се съдържа в определена подгрупа от функции и не е необходимо да се използват всички. Това важи особено за корелирани характеристики. Например характеристиките „Възраст” и „Трудов стаж” по същество носят една и съща информация, така че една от тях може да бъде изключена.

Най-ефективният начин за намаляване на броя на характеристиките е факторният анализ и методът на главните компоненти.

Намаляването на разнообразието от стойности на характеристики има смисъл, например, ако точността на представяне на данните е прекомерна и могат да се използват цели числа вместо реални стойности, без да се влошава качеството на модела. Но това ще намали обема на паметта, заета от данните, и изчислителните разходи.

Подмножеството от данни, получено в резултат на намаляване на размерността, трябва да наследи от оригиналния набор толкова информация, колкото е необходимо за решаване на проблема с дадена точност, а изчислителните и времеви разходи за намаляване на данните не трябва да обезценяват ползите, получени от него.

Аналитичен модел, изграден от намален набор от данни, трябва да бъде по-лесен за обработка, прилагане и разбиране от модел, изграден от оригиналния набор.

Решението за избор на метод за намаляване на размерността се основава на предварително знание за характеристиките на решавания проблем и очакваните резултати, както и на ограниченото време и изчислителни ресурси.

При многовариантния статистически анализ всеки обект се описва от вектор, чиято размерност е произволна (но еднаква за всички обекти). Човек обаче може директно да възприема само числови данни или точки на равнина. Анализирането на клъстери от точки в триизмерното пространство е много по-трудно. Директното възприемане на данни с по-високо измерение е невъзможно. Следователно е съвсем естествено да искате да преминете от многоизмерна извадка към нискоразмерни данни, така че „да можете да ги разгледате“.

В допълнение към желанието за яснота има и други мотиви за намаляване на размерността. Тези фактори, от които променливата, която представлява интерес за изследователя, не зависи само пречат на статистическия анализ. Първо, ресурсите се изразходват за събиране на информация за тях. Второ, както може да се докаже, включването им в анализа влошава свойствата на статистическите процедури (по-специално, увеличава дисперсията на оценките на параметрите и характеристиките на разпределението). Ето защо е препоръчително да се отървете от такива фактори.

Нека обсъдим, от гледна точка на намаляването на размерността, примера за използване на регресионен анализ за прогнозиране на обема на продажбите, разгледан в подраздел 3.2.3. Първо, в този пример беше възможно да се намали броят на независимите променливи от 17 на 12. Второ, беше възможно да се конструира нов фактор - линейна функция на 12-те споменати фактора, която прогнозира обема на продажбите по-добре от всички други линейни комбинации от фактори. Следователно можем да кажем, че в резултат размерността на проблема намаля от 18 на 2. А именно, остана един независим фактор (линейната комбинация, дадена в подраздел 3.2.3) и един зависим фактор - обем на продажбите.

Когато се анализират многовариантни данни, обикновено се разглеждат не един, а много проблеми, по-специално изборът на независими и зависими променливи по различен начин. Следователно, разгледайте проблема с намаляването на размерността в следната формулировка. Дадена е многовариантна извадка. Необходимо е да се премине от него към набор от вектори с по-ниско измерение, като се запази максимално структурата на оригиналните данни, без да се губи, ако е възможно, информацията, съдържаща се в данните. Задачата се конкретизира в рамките на всеки конкретен метод за намаляване на размерността.

Метод на главния компоненте един от най-често използваните методи за намаляване на размерността. Основната му идея е последователно да идентифицира посоките, в които данните имат най-голямо разсейване. Нека извадката се състои от вектори, еднакво разпределени с вектора х = (х(1), х(2), … , х(н)). Нека разгледаме линейните комбинации

Y(λ(1), λ(2), …, λ( н)) = λ(1) х(1) + λ(2) х(2) + … + λ( н)х(н),

λ 2 (1) + λ 2 (2) + …+ λ 2 ( н) = 1.

Тук векторът λ = (λ(1), λ(2), …, λ( н)) лежи върху единичната сфера в н-измерно пространство.

При метода на главния компонент най-напред се намира посоката на максималното разсейване, т.е. такова λ, при което дисперсията на случайната променлива достига своя максимум Y(λ) = Y(λ(1), λ(2), …, λ( н)). Тогава векторът λ определя първия главен компонент и количеството Y(λ) е проекцията на произволния вектор хкъм оста на първия главен компонент.

След това, от гледна точка на линейната алгебра, разгледайте хиперравнината в н-дименсионално пространство, перпендикулярно на първия главен компонент, и проектираме всички елементи на образеца върху тази хиперравнина. Измерението на хиперравнината е с 1 по-малко от измерението на оригиналното пространство.

В разглежданата хиперравнина процедурата се повтаря. В него се намира посоката на най-голямото разсейване, т.е. втори основен компонент. След това се идентифицира хиперравнина, перпендикулярна на първите два главни компонента. Размерът му е 2 по-малък от размерите на оригиналното пространство. Следва следващата итерация.

От гледна точка на линейната алгебра говорим за конструиране на нов базис в н-дименсионално пространство, чиито вектори са главни компоненти.

Дисперсията, съответстваща на всеки нов главен компонент, е по-малка от тази на предишния. Обикновено те спират, когато е под даден праг. Ако е избрано косновни компоненти, това означава, че от н-измерно пространство, в което успяхме да се преместим к- размерен, т.е. намаляване на измерението от н-преди к, практически без изкривяване на структурата на изходните данни .

За визуален анализ на данни често се използват проекции на оригиналните вектори върху равнината на първите два главни компонента. Обикновено структурата на данните е ясно видима, разграничават се компактни клъстери от обекти и отделни вектори.

Методът на главния компонент е един от методите факторен анализ. Различните алгоритми за факторен анализ са обединени от факта, че във всички тях има преход към нова основа в оригинала н-измерно пространство. Концепцията за „факторно натоварване“ е важна, използвана за описване на ролята на първоначалния фактор (променлива) при формирането на определен вектор от нова основа.

Нова идея в сравнение с метода на главния компонент е, че факторите се разделят на групи въз основа на натоварванията. Факторите, които имат подобно влияние върху елементите на новата основа, се обединяват в една група. След това се препоръчва да оставите по един представител от всяка група. Понякога, вместо да се избира представител чрез изчисление, се формира нов фактор, който е централен за въпросната група. Намаляване на размерността възниква при преминаване към система от фактори, които са представители на групи. Други фактори се отхвърлят.

Описаната процедура може да се извърши не само чрез факторен анализ. Говорим за клъстерен анализ на признаци (фактори, променливи). За да разделите характеристиките на групи, можете да използвате различни алгоритми за клъстерен анализ. Достатъчно е да въведете разстоянието (мярка за близост, показател за разлика) между характеристиките. Позволявам хИ U- два знака. Разлика д(х, Y) между тях могат да бъдат измерени с помощта на примерни коефициенти на корелация:

д 1 (X,Y) = 1 – r n(X,Y), д 2 (X,Y) = 1 – ρ н(X,Y),

Където r n(х, Y) – примерен линеен коефициент на корелация на Пиърсън, ρ н(х, Y) – примерен коефициент на рангова корелация на Spearman.

Многомерно мащабиране. Относно използването на разстояния (мерки за близост, показатели за разлика) д(х, Y) между знаци хИ Uбеше основан обширен клас от многомерни методи за мащабиране. Основната идея на този клас методи е да представи всеки обект като точка в геометричното пространство (обикновено с размерност 1, 2 или 3), чиито координати са стойностите на скритите (латентни) фактори, които заедно описват адекватно обекта. В този случай връзките между обектите се заменят с отношения между точките - техни представители. По този начин данните за сходството на обектите - чрез разстоянията между точките, данните за превъзходството - чрез относителната позиция на точките.

В практиката се използват редица различни модели за многомерно мащабиране. Във всички тях възниква проблемът за оценка на истинското измерение на факторното пространство. Нека разгледаме този проблем, използвайки примера за обработка на данни за сходството на обекти, използвайки метрично мащабиране.

Нека има нобекти ОТНОСНО(1), ОТНОСНО(2), …, О(н), за всяка двойка обекти ОТНОСНО(аз), О(й) е дадена мярката за тяхното сходство с(аз, й). Вярваме, че винаги с(аз, й) = с(й, аз). Произход на числата с(аз, й) не е важно за описание на работата на алгоритъма. Те могат да бъдат получени или чрез директно измерване, или с помощта на експерти, или чрез изчисление от набор от описателни характеристики, или по някакъв друг начин.

В евклидовото пространство разглежданото нобектите трябва да бъдат представени чрез конфигурация нточки, а мярката за близост на представителните точки е евклидовото разстояние д(аз, й) между съответните точки. Степента на съответствие между набор от обекти и набор от точки, които ги представят, се определя чрез сравняване на матриците на подобие || с(аз, й)|| и разстояния || д(аз, й)||. Функционалът на метричното сходство има формата

Геометричната конфигурация трябва да бъде избрана така, че функционалът S да достигне своята минимална стойност.

Коментирайте.При неметрично мащабиране, вместо близостта на мерките за близост и самите разстояния, се разглежда близостта на подрежданията върху набора от мерки за близост и набора от съответните разстояния. Вместо функционалност Сизползвани са аналози на коефициентите на рангова корелация на Spearman и Kendall. С други думи, неметричното мащабиране предполага, че мерките за близост се измерват по порядъчна скала.

Нека евклидовото пространство има измерението м. Помислете за минималната средна квадратна грешка

,

където минимумът е взет за всички възможни конфигурации нточки в м-мерно евклидово пространство. Може да се покаже, че разглежданият минимум се постига при определена конфигурация. Ясно е, че с растежа мстойността α m монотонно намалява (по-точно не нараства). Може да се покаже, че когато м > н– 1 е равно на 0 (ако с(аз, й) – показател). За да се увеличат възможностите за смислена интерпретация, е желателно да се оперира в пространство с възможно най-малко измерение. В този случай обаче размерът трябва да бъде избран така, че точките да представляват обекти без големи изкривявания. Възниква въпросът: как рационално да изберете измерението, т.е. естествено число м?

В рамките на детерминистичния анализ на данни изглежда няма разумен отговор на този въпрос. Следователно е необходимо да се изследва поведението на α m в определени вероятностни модели. Ако мерките за близост с(аз, й) са случайни променливи, чието разпределение зависи от „истинското измерение“ м 0 (и, вероятно, на някои други параметри), тогава можем да поставим проблема с оценката в класическия математико-статистически стил м 0, потърсете последователни оценки и т.н.

Нека започнем да изграждаме вероятностни модели. Нека приемем, че обектите са точки в евклидовото пространство на измерение к, Където кдостатъчно голям. Че "истинското измерение" е м 0 означава, че всички тези точки лежат на хиперравнината на измерението м 0 . Нека приемем за определеност, че разглежданото множество от точки е извадка от кръгово нормално разпределение с дисперсия σ 2 (0). Това означава, че обектите ОТНОСНО(1), ОТНОСНО(2), …, О(н) са колективно независими произволни вектори, всеки от които е конструиран като ζ(1) д(1) + ζ(2) д(2) + … + ζ( м 0)д(м 0), където д(1), д(2), … , д(м 0) – ортонормална база в подпространството на размерността м 0, в която лежат разглежданите точки, и ζ(1), ζ(2), … , ζ( м 0) са колективно независими едномерни нормални случайни променливи с математическо очакване) и дисперсия σ 2 (0).

Нека разгледаме два модела за получаване на мерки за близост с(аз, й). В първия от тях с(аз, й) се различават от евклидовото разстояние между съответните точки поради факта, че точките са известни с изкривявания. Позволявам с(1),с(2), … , с(н) са точките, които се разглеждат. Тогава

с(аз, й) = д(° С(аз) + ε( аз), ° С(й) + ε( й)), аз, й = 1, 2, … , н,

Където д– Евклидово разстояние между точките в к-мерно пространство, вектори ε(1), ε(2), … , ε( н) представляват извадка от кръгово нормално разпределение в к-дименсионално пространство с нулево математическо очакване и ковариационна матрица σ 2 (1) аз, Където аз– матрица на идентичност. С други думи, ε( аз) = η(1) д(1) + η(2) д(2) + … + η( к)д(к), Където д(1), д(2), …, д(к) – ортонормална основа в к-мерно пространство и (η( аз, T), аз= 1, 2, … , n, T= 1, 2, … , k) – набор от независимо независими едномерни случайни променливи с нулево математическо очакване и дисперсия σ 2 (1).

Във втория модел изкривяванията се налагат директно върху самите разстояния:

с(i,j) = д(° С(аз), ° С(й)) + ε( i,j), i,j = 1, 2, … , н, азй,

където (ε( аз, й), аз, й = 1, 2, … , н) – колективно независими нормални случайни променливи с математическо очакване) и дисперсия σ 2 (1).

Работата показва, че и за двата формулирани модела минималната средна квадратична грешка α m при н→ ∞ се сближава по вероятност към

f(м) = f 1 (м) + σ 2 (1)( км), м = 1, 2, …, к,

Така че функцията f(м) е линеен на интервалите и , като в първия интервал намалява по-бързо, отколкото във втория. Следва тази статистика

е последователна оценка на истинското измерение м 0 .

И така, препоръката следва от вероятностната теория - да се използва като оценка на размерността на факторното пространство м*. Имайте предвид, че такава препоръка е формулирана като евристика от един от основателите на многомерното скалиране, J. Kruskal. Той идва от опит в практическото използване на многомерно мащабиране и изчислителни експерименти. Вероятностната теория направи възможно обосноваването на тази евристична препоръка.

Предишен

Глава 13. МЕТОД НА ОСНОВНИЯ КОМПОНЕНТ

13.1. Същността на проблема за намаляване на размерността и различни методи за решаването му

В изследователската и практическата статистическа работа трябва да се справяте със ситуации, при които общият брой знаци, записани на всеки от многото изследвани обекти (държави, градове, предприятия, семейства, пациенти, технически или екологични системи) е много голям - около сто или повече. Въпреки това, наличните многовариантни наблюдения

трябва да бъдат статистически обработени, осмислени или въведени в база данни, за да могат да се използват в подходящия момент.

Желанието на статистика да представи всяко от наблюденията (13.1) под формата на вектор Z на някои спомагателни показатели със значително по-малък (от) брой компоненти се дължи основно на следните причини:

необходимостта от визуално представяне (визуализация) на изходните данни (13.1), което се постига чрез проектирането им върху специално избрано триизмерно пространство, равнина или числова линия (раздел IV е посветен на задачи от този тип);

желанието за лаконичност на изследваните модели, поради необходимостта от опростяване на изчислението и интерпретацията на получените статистически заключения;

необходимостта от значително компресиране на обема на съхраняваната статистическа информация (без видими загуби в нейното информационно съдържание), ако говорим за записване и съхраняване на масиви от тип (13.1) в специална база данни.

В този случай нови (спомагателни) характеристики могат да бъдат избрани измежду първоначалните или определени според някакво правило въз основа на набор от първоначални характеристики, например като техните линейни комбинации. При формирането на нова система от характеристики към последната се налагат различни изисквания, като най-голяма информационна наситеност (в известен смисъл), взаимна некорелация, най-малкото изкривяване на геометричната структура на набора от изходни данни и др. В зависимост от вариант на формална спецификация на тези изисквания (виж по-долу, както и раздел IV) достигаме до един или друг алгоритъм за намаляване на размерността. Има най-малко три основни типа фундаментални предпоставки, които определят възможността за преход от голям брой първоначални показатели за състоянието (поведение, ефективност на работа) на анализираната система към значително по-малък брой от най-информативните променливи. Това е, първо, дублиране на информация, предоставена от силно взаимосвързани характеристики; второ, липсата на информационно съдържание на характеристики, които се променят малко при преминаване от един обект към друг (ниска „променливост“ на характеристиките); трето, възможността за агрегиране, т.е. просто или „претеглено“ сумиране, според определени критерии.

Формално задачата за преход (с минимални загуби на информационно съдържание) към нов набор от функции може да бъде описана по следния начин. Нека е някаква р-мерна векторна функция на изходните променливи и нека е определена определена мярка за информативността на -мерната система от характеристики.Конкретният избор на функционала зависи от спецификата на реалния проблем, който се решава и се основава на един от възможните критерии: критерият за автоинформативност, насочен към максимално запазване на информацията, съдържаща се в оригиналния масив, спрямо самите оригинални характеристики; и критерият за външно информационно съдържание, насочен към максимално „изстискване“ на информацията, съдържаща се в този масив, спрямо някои други (външни) показатели.

Задачата е да се определи такова множество от признаци Z, намиращи се в класа F на допустимите трансформации на изходните показатели, че

Една или друга версия на спецификацията на това твърдение (което определя конкретния избор на мярка за информационно съдържание) и класа на допустимите трансформации) води до специфичен метод за намаляване на размерността: метод на главния компонент, факторен анализ, екстремно групиране на параметри, и т.н.

Нека обясним това с примери.

13.1.1. Метод на главния компонент (вижте § 13.2-§ 13.6).

Именно до първите главни компоненти изследователят ще стигне, ако като клас от допустими трансформации F дефинира всички възможни линейни ортогонални нормализирани комбинации от начални показатели, т.е.

(тук) е математическото очакване и като мярка за информационното съдържание на -мерната система от показатели, изразът

(тук D, както и преди, е знакът на операцията за изчисляване на дисперсията на съответната случайна променлива).

13.1.2. Факторен анализ (виж Глава 14).

Както е известно (виж § 14.1), моделът на факторния анализ обяснява структурата на връзките между първоначалните показатели с факта, че поведението на всеки от тях зависи статистически от един и същ набор от така наречените общи фактори, т.е.

където - "натоварването" на общия фактор върху първоначалния индикатор - остатъчният "специфичен" случаен компонент и - са по двойки некорелирани.

Оказва се, че ако F се дефинира като клас на всички възможни линейни комбинации, като се вземат предвид споменатите ограничения върху и като мярка за информационното съдържание на -мерната система от индикатори, изберете стойност, тогава решението за оптимизация задача (13.2) съвпада с вектора на общите фактори в модела на факторния анализ. Ето корелационната матрица на първоначалните индикатори; корелационната матрица на индикаторите е евклидовата норма на матрица А.

13.1.3. Метод на екстремно групиране на признаци (вижте точка 14.2.1).

При този метод говорим за разделяне на набора от първоначални индикатори на определен брой групи, така че характеристиките, принадлежащи към една група, да бъдат относително силно взаимно корелирани, докато характеристиките, принадлежащи към различни групи, биха били слабо корелирани. В същото време се решава проблемът за заместването на всяка група от силно взаимно корелирани първоначални показатели с един спомагателен „резултатен“ показател, който, естествено, трябва да бъде в тясна връзка с характеристиките на своята група. След като дефинирахме всички нормализирани линейни комбинации като клас от допустими трансформации F на началните индикатори, ние търсим решение чрез максимизиране (по отношение на S и ) функционала

където е коефициентът на корелация между променливите.

13.1.4. Многомерно мащабиране (вижте Глава 16).

В редица ситуации и предимно в ситуации, при които първоначалните статистически данни се получават чрез специални проучвания, въпросници, експертни оценки, може да има случаи, когато елементът на първичното наблюдение не е състоянието на обекта, описан от вектора, а характеристиката на двойната близост (отдалеченост) на два обекта (или знаци) според числата

В този случай изследователят има като масив от първоначални статистически данни матрица на размера (ако се вземат предвид характеристиките на двойната близост на обектите) или (ако се вземат предвид характеристиките на двойната близост на характеристиките) на формата

където количествата се интерпретират или като разстояния между обекти (характеристики) i или като рангове, които определят подреждането на тези разстояния. Задачата на многомерното мащабиране е да „потопим“ нашите обекти (характеристики) в такова -измерно пространство, т.е. да изберем координатни оси, така че първоначалната геометрична конфигурация на набора от анализирани обектни точки (или точкови характеристики), определени с помощта на ( 13.1) или (13.5), биха се оказали най-малко изкривени по смисъла на някакъв критерий за средната „степен на изкривяване“ на взаимните разстояния по двойки.

Една от доста общите схеми за многомерно мащабиране се определя от критерия

където - разстоянието между обектите в оригиналното пространство, - разстоянието между същите обекти в желаното пространство с по-ниско измерение - са свободни параметри, изборът на конкретни стойности на които е по преценка на изследователя.

След като определихме мярката на информационното съдържание на желания набор от характеристики Z, например, като обратна на горепосочената степен на изкривяване на геометричната структура на оригиналния набор от точки, ние свеждаме този проблем до общата формулировка (13.2 ), ако приемем

13.1.5. Избор на най-информативните индикатори в моделите за дискриминантен анализ (виж § 1.4; 2.5).

Горните функции са мерки за автоинформативността на съответната система от функции. Нека сега дадем примери за критерии за външно информационно съдържание. По-специално ще се интересуваме от информационното съдържание на системата от индикатори от гледна точка на правилното класифициране на обектите по тези показатели в схемата за дискриминантен анализ. В този случай ние определяме класа на допустимите трансформации F въз основа на изискванията, че могат да се разглеждат само представители на набор от първоначални индикатори, т.е.

Често срещана изходна теза при решаването на проблема за идентифициране на най-информативните индикатори от оригиналния набор е твърдението, че вектор от индикатори от дадено измерение е толкова по-информативен, колкото по-голяма е разликата в законите на неговото вероятностно разпределение, дефинирани в различни класове в разглеждания класификационен проблем. Ако въведем мярка за двойни разлики в законите, описващи вероятностното разпределение на вектора на признаците в класове с числа, тогава можем да формализираме горния принцип за избор на най-информативните индикатори, като ги определяме от условието за максимизиране (с) стойността

Най-често използваните мерки за разлика между законите за разпределение на вероятностите са разстоянието на информационния тип (разстояние Кулбак, разстояние Махаланобис), както и „вариационното разстояние“ (за повече подробности вижте .

13.1.6. Избор на най-информативните променливи в регресионните модели (виж).

При конструирането на зависимости от регресионен тип, един от централните въпроси е идентифицирането на сравнително малък брой променливи (от априорния набор, които най-съществено влияят върху поведението на получената характеристика, която се изследва).

По този начин, както в предишния параграф, клас F се състои от всички възможни набори от променливи, избрани от първоначалния набор от фактори-аргументи и ние се занимаваме с критерия за външно информационно съдържание на такива набори. Типът му обикновено се определя с помощта на множествен коефициент на детерминация - характеристика на степента на тясна връзка между индикатора y и набор от променливи.В този случай, за фиксирана величина, наборът от променливи очевидно ще се счита за най-информативен (от гледна точка на точността на описване на поведението на индикатора y), ако стойността на мярката за информационно съдържание на този набор достигне своя максимум.

  • В статистиката, машинното обучение и теорията на информацията намаляването на размерността е трансформация на данни, която се състои в намаляване на броя на променливите чрез получаване на основните променливи. Трансформацията може да бъде разделена на избор на функция и извличане на функция.

Свързани понятия

Споменавания в литературата

– зареждане и предварителна обработка на входни данни, – ръчно и автоматично маркиране на стимулни материали (избор на области на интерес), – алгоритъм за изчисляване на матрицата за представяне на наследник, – изграждане на разширена таблица с данни със стойностите на входните променливи, необходими за последващ анализ, – метод намаляване на размерносттапространство на характеристиките (метод на главния компонент), – визуализация на зарежданията на компоненти за избор на интерпретируеми компоненти, – алгоритъм за обучение на дърво на решенията, – алгоритъм за оценка на предсказващата способност на дърво, – визуализация на дърво на решения.

Свързани понятия (продължение)

Техниките за спектрално групиране използват спектъра (собствени стойности) на матрицата за сходство на данни, за да извършат намаляване на размерността преди групиране в пространства с по-ниски измерения. Матрицата на сходството се предоставя като вход и се състои от количествени оценки на относителното сходство на всяка двойка точки в данните.

Спектралните методи са клас техники, използвани в приложната математика за числено решаване на определени диференциални уравнения, вероятно включващи бързото преобразуване на Фурие. Идеята е да се пренапише решението на диференциалните уравнения като сума от някои „базисни функции“ (като как редовете на Фурие са сумата от синусоидите) и след това да се изберат коефициентите в сумата, за да задоволят възможно най-добре диференциалното уравнение.

Математически анализ (класически математически анализ) - набор от клонове на математиката, съответстващи на историческия раздел, наречен „безкрайно малък анализ“, съчетава диференциално и интегрално смятане.

Диференциалната еволюция е метод за многомерна математическа оптимизация, който принадлежи към класа на алгоритмите за стохастична оптимизация (т.е. работи с помощта на случайни числа) и използва някои идеи на генетични алгоритми, но за разлика от тях не изисква работа с променливи в двоичен код .

Методът на дискретните елементи (DEM, от английски Discrete element method) е семейство от числени методи, предназначени за изчисляване на движението на голям брой частици, като молекули, пясъчни зърна, чакъл, камъчета и други гранулирани среди. Методът първоначално е приложен от Cundall през 1971 г. за решаване на проблеми с механиката на скалите.