Az eloszlási sűrűség becslése

A Bayes-féle osztályozási algoritmusok az osztályok a priori valószínûségeinek ismeretén és az attribútumok valószínûségi eloszlásának törvényein alapulnak. A gyakorlatban csak az objektumok képzési mintáját ismerjük. A mintaelemeket független, azonos eloszlású változóknak tekintjük. A mintából meg kell becsülni az eloszlás sűrűségét.

Meg kell becsülni az eloszlási sűrűséget a független véletlenszerű vektorokból származó, a jelen törvénynek megfelelően elosztott mintából.

Az eloszlási sűrűség becslésének három fő módja van: nemparametrikus, paraméteres és az eloszlások keverékeinek kinyerése.

Nem parametrikus sűrűségcsökkenés

Feltételezzük, hogy az eloszlásfüggvény általános formája ismeretlen, csak bizonyos tulajdonságok ismertek, például a funkció sima és folyamatos. Ezután nem-paraméteres becslési módszereket használnak a sűrűség becsléséhez.

Olyan függvény létrehozása, amely bizonyos értelemben közelíti az ismeretlen funkciót.

Hisztogram becslési módszer

Az ötlet. ha egy véletlen vektor sűrűsége, akkor, ahol, a régió mérete. Ha - mintavétel, - a mintaértékek száma, akkor

Ezért a sűrűségbecslés.

  1. Megtalálunk egy korlátozott térterületet (objektumterületet), amely tartalmazza a képminta összes vektorát;
  2. Megoszthatjuk a diszjunktív területeket;
  3. ha - a domainhez tartozó képzési minta elemeinek száma, akkor

hol van a régió mérete.

Az értékelés összhangban lesz néhány választási lehetőséggel. Sajnálatos módon nincs olyan univerzális mód a területek kiválasztására, hogy a becslés következetes legyen.

A helyi becslés módszerei

Az ötlet. A sűrűség becslése egy bizonyos ponton a képzési minták elemeinek segítségével, amelyek valamilyen szomszédságba esnek.

Legyen szó független véletlen vektorokból álló minták sorozatáról, egy pontot tartalmazó doménszekvenciákról, a tartományba eső mintavételezett minták számáról.

Tétel. Ha a függvény folyamatosan egy ponton van, minden régió tartalmaz egy pontot és kielégíti a feltételeket

akkor a függvény egy ponton elfogulatlan, aszimptotikusan hatékony és következetes becslés lesz.

A pontokat tartalmazó területek kiválasztására két alapvető megközelítés létezik:

  1. a Parzen ablakának módja. feltételezik, hogy rendszeres tartományok, amelyek méretei megfelelnek a tétel feltételeinek, ennek alapján számot határozunk meg.
  2. k legközelebbi szomszédos módszerrel. Nem rögzítettek területek és számok, akkor egy pontnál a rendes terület a legközelebb van a pontokhoz.

A becslési módszer a sűrűségfüggvény approximációval

Az ötlet. a függvényt alapfunkciók rendszerével közelítjük meg - a becslést a formában keressük

Az együtthatókat oly módon választják ki, hogy a közelítési hiba minimális, azaz

Valójában a végtelen sorozatok (1) helyett az első kifejezések véges összegét veszik figyelembe.

Általában véve ortogonális bázisa a rendszer funkcióit, használatát Legendre polinomok, Csebisev, Hermite, Lagrange, Laguerre stb

A sűrűség paraméteres helyreállítása

Ha az általános formája az eloszlás sűrűségfüggvénye véletlen vektor ξ ismert abban az értelemben, hogy a pontos formáját a funkció teljes mértékben meghatározza egy sor paramétert, hogy meg tudjuk becsülni a tanító, majd alkalmazza parametrikus sűrűségű becslési módszereket.

Ismerjük a véletlenszerű vektor eloszlásfüggvényének általános formáját, amely függ a paramétervektortól. A vektorértékek képzési mintájától meg kell szerezni a vektorbecslést.

Maximum likelihood módszer

Az ötlet. olyan paraméterek vektorát találja meg, amelyek ilyenek

Tegyük fel, hogy a sűrűség többdimenziós normális eloszlású:

Ezután a paraméterek becslése és a maximális valószínűségű módszer alkalmazása a mintából a következő alakú

Az ötlet. ha véletlenszerű vektor eloszlásának sűrűsége, akkor az i. sor pillanatai egyenlőek (feltételezzük):

Az értékelés a minta alapján található:

A becslés az egyenletek rendszeréből származik:

Ha a függőség folyamatos, akkor következetes becslés.

Elosztási keverékek helyreállítása

Ha az osztályok "űrlapja" meglehetősen bonyolult formában van, amely egyetlen eloszlással nem "alkalmas" a leírásra, akkor az eloszlások keverékeinek rekonstruálására szolgáló módszereket használják - az osztályt több eloszlással írják le.

Tegyük fel, hogy az eloszlási sűrűség az eloszlások keveréke:

ahol a keverék i-edik komponensének eloszlási sűrűsége az a priori valószínűsége. A valószínűségi függvények a terjesztések paraméteres családjába tartoznak, és csak a paraméter értékei között különböznek.

Egy minta ismert - önálló véletlen megfigyelések egy keverékből, szám és funkció ismeretes. Meg kell találni a paraméterek becslését.

Az ötlet. mesterségesen bevezeti a rejtett változók vektorát, amely a következő tulajdonságokkal rendelkezik:

  1. Számítható ki, ha a paramétervektor értékei ismeretesek;
  2. a legnagyobb valószínûségû keresés nagymértékben leegyszerûsödik, ha a rejtett változók értékei ismeretesek.

Az EM algoritmus két lépésből álló iteratív ismétlésből áll. Az E-lépésben a rejtett változók vektorának várt értéke (várakozás) a paramétervektor aktuális közelítése alapján számítható ki. Az M-lépésben a valószínűség maximalizálásának feladata (maximalizálás) megoldódik, és a vektor következő értékei a vektorok aktuális értékeiből és.

Az Iterációk abbahagyják a funkcionális értékeket, ahol

vagy a rejtett változók jelentősen megváltoznak. Kényelmesebb a rejtett változók vezérlése, mivel valószínűségük van, és értékeit a [0, 1] intervallumtól veszi.

Az EM algoritmus végrehajtásából eredő "problémák"

  • A kezdeti közelítés kiválasztásának problémája. Annak ellenére, hogy az EM algoritmus eléggé általános feltételezésekkel konvergál, a konvergencia mértéke alapvetően függ a kezdeti közelítés "jó" választásától. A konvergencia még rosszabb, ha több összetevőt próbálunk elhelyezni egy tényleges elosztási csomagra, vagy az összetevőt a rögök közé helyezzük.
  • Az összetevők számának kiválasztása. Eddig feltételezték, hogy az alkatrészek számát előre ismerik. A gyakorlatban ez általában nem így van.

Egy EM algoritmus komponensek egymás utáni hozzáadásával lehetővé teszi mindkét probléma megoldását. A módszer elgondolása a következő. Ha van egy bizonyos összetevõkészlete, kiválaszthatja azokat a tárgyakat, amelyek a legrosszabb esetben egy keverékben vannak leírva - ezek a legkisebb valószínűségértékû objektumok. Ezekhez a tárgyakhoz egy másik komponens épül. Ezután hozzáadódik a keverékhez, és az EM-iterációk elindulnak, hogy az új komponens és a régiek "dörzsöljenek össze". Ez addig folytatódik, amíg az összes objektumot nem látják el komponensekkel.

Az eloszlási sűrűség becslésének három megközelítését tekintettük: nem parametrikus, paraméteres és a keverékek elválasztását. Mindegyiküket bizonyos a priori ismeretekkel látják el az eloszlási sűrűségről. Paraméteres rekonstrukciós módszereket használnak, ha az eloszlásfüggvény formája olyan paraméterek halmazához ismeretes, amelyeket a képzési minta becsül. A nem parametrikus módszerek többé már nem igénylik az eloszlás funkciójának ismeretét a paraméterekkel való pontossággal, hanem csak a funkció egyes tulajdonságait, például a folytonosságot vagy a simaságot. Ha a forma elég osztályt „komplex” típusú, hogy nem lehet leírni egy elosztó, majd a elválasztási módszerekkel a keverékek, azt feltételezzük, hogy a sűrűség eloszlása ​​a osztály egy keveréke többszörös eloszlások.

Annak ellenére, hogy úgy tűnik, minden megközelítésnek különböző alkalmazási területei vannak, és különböző képzési módszereket alkalmaznak, megkülönböztethetők a hasonlóságok. Nem paraméteres sűrűségű becslés lehet tekinteni, mint egy speciális esete az határeloszlása ​​a keverék, ahol minden egyes képzési tárgy megfelel pontosan egy komponenst a priori valószínűségi sűrűség és gömb alakú és középpontja. Másrészt a paraméteres megközelítés a keverék szélsőséges esetét jelenti - ha csak egy komponenst veszünk. Így mindhárom megközelítés elsősorban az elosztási modellben lévő adalék összetevők számától különbözik :. Ez a tanítási módszerek minőségi különbségeihez vezet. Az összetevők formájára vonatkozó követelmények gyengülnek számuk növekedésével. A keveréknek tetszőleges számú komponensből történő helyreállítása nyilvánvalóan a Bayes-osztályozás legáltalánosabb megközelítése.

Lásd még a MethodLearning.ru Erőforrás oktatási folyamat módszertani utasításait.