robusztus becslési

Az utóbbi évtizedekben egyre inkább tudatában van a tény, hogy néhány, a leggyakoribb statisztikai eljárások (beleértve azokat is, amelyek az optimális feltételezve, a normalitás) rendkívül érzékeny a viszonylag kis eltérések feltételezéseket. Ezért most vannak más eljárások - „robusztus” (. Az angol robusztus - erős, egészséges, izmos).

Mi jelenti a kifejezés robusztusság érzéketlen kis eltérések feltételezéseket. Az eljárás robusztus, ha a kis eltéréseket a feltételezett modellt kell rontja az eljárás (például diszperzió vagy aszimptotikus szintű fontosságát és erejét kritérium) közel kell lennie a névleges értékeket számított a feltételezett modell.

Tekintsük a robusztusság a forgalmazás. azaz helyzetek, amikor az igazi eloszlás némileg eltér a javasolt modell (jellemzően Gauss eloszlás). Ez nem csak a legfontosabb ügy, hanem a legalaposabban tanulmányozott. Sokkal kevesebbet tudunk arról, hogy mi történik azokban a helyzetekben, ahol több törött más standard statisztikai feltételezéseket, és milyen garanciákat kell biztosítani az ilyen esetekben.

A főbb értékelések

Bemutatjuk az értékelés három fő típusa () betűk rendre megfelelnek a maximum likelihood becslések típusú lineáris kombinációi rendstatisztikák és kapott pontszámok rangban kritériumoknak.

Különösen fontosak az értékelés a legrugalmasabb értékelés - elismerik közvetlen általánosítása a muitipararnéteres ügyben.

Maximális valószínűségét becslések a típusú (M-érték)

Bármilyen értékelés meghatározása a megoldás a extremális problémát a legkisebb fajok

vagy oldatként az implicit egyenlet

ahol - tetszőleges függvény, az úgynevezett egy becslést (vagy a maximális valószínűség becslését a típus); megjegyezni, hogy ha a kiválasztott függvényében, megkapjuk a szokásos maximális valószínűség becslés.

Különösen érdekeltek vagyunk értékelésében a nyírási

Az utóbbi egyenlet átírható az egyenértékű formában

Akkor adjon becslést formájában súlyozott átlag

súlya együtthatók a mintától függően.

Lineáris kombinációi rendstatisztikák (L-érték)

Tekintsük a statisztikát, amely egy lineáris kombinációja rendstatisztikák, vagy több általános beállítási értékeket az egyes funkciók:

Tegyük fel, hogy a súlyozó tényezők felhasználásával állítjuk elő a (váltakozva) méri az intervallum (0,1):

(Ez a választás együtthatók tartalékok teljes súly változatlan marad, azaz ^ n „/>, és rendelkezik szimmetrikus együtthatók, ha az intézkedés szimmetrikus arra a pontra.)

Abban az esetben, rassmatrivaevom becslést kapunk a funkcionális

Itt az függvény inverze a ffunktsii eloszlás függvény

  1. A legegyszerűbb példa a minta medián.
  2. Vinzorizovannoe átlagos (Winsorized átlag). Kiszámításához az értékek a kiindulási minta vannak elrendezve egy bizonyos sorrendben (például növekvő), majd mindkét oldalon el van vágva néhány százalék adatok (tipikusan, hogy 10% vagy 25% mindkét oldalon azonos), és a betakarított speciálisan kiválasztott módon helyébe értékek fennmaradó számok, akkor vyislyaetsya jelent számára a teljes minta.
  3. A csonkolt átlag (csonkolt átlag). Ennek számításához változatok számát átlagoltuk adatminta eltávolítás után mindkét oldalán egy bizonyos hányadát a tárgyak (ez a tartományban 5-25%).
  4. Vágott átlagos (Trimean). Az érték kiszámítása a következő képlettel „/>, ahol - quartilist i-edik érdekében.

Nem minden rendstatisztikák robusztusak. Maximum, minimum, átlag fele az összeg a legnagyobb és a legkisebb nem robusztus, azok jellemzőit, bemutatja, hogyan lehet megváltoztatni a megfigyelés, hogy ez nem befolyásolja a végeredményt egyenlő 0 A robusztus becslések ez a jellemző 50% esetében a medián és más, kevésbé és ez attól függ, hogy a százalékos használt nyírás adatokat.

A becslések kapott rangot kritériumok (R-érték)

Tekintsünk egy két mintát rank teszt, hogy meghatározzuk a eltolási paraméter hagyja, és a két független minta eloszlások és sootvetstvenno.Obedinim a mintát egy minta térfogata .Pust rangot a kombinált minta megfigyelés. Súly kérni. A kritérium vizsgálata a hipotézis ellen az alternatív 0 „alt =” \ Delta> 0 „/> statisztika alapján

Az általános szabály az, úgy véljük, hogy a súlyok segítségével kapott egy képlet funkció

Tény, hogy inkább dolgozni a következő számítási lehetőségek

Egyszerűsítése úgy vélik, hogy ettől a ponttól kezdve. Írunk statisztikák formájában funkcionális

amely upon helyettesítés válik

A gyakorlatban, a munka az utóbbi. Ezen kívül dolgozik azzal a megkötéssel, hogy

Ezen feltételek mellett, az elvárás szerinti statisztikák a nullhipotézis 0.

A becslések a két mintányi eltolódás a készítményben, és a váltás esetén egy minta alkalmazásával állíthatjuk elő a következő rank teszteket.

  1. Amennyiben két nyert minták közelítő egyenlet „/> kaptunk a minták, és
  2. Abban az esetben nyert mintában a feltétel „/> számítjuk ki a minta, és a. Ebben az esetben, nincs második minta tükörképe az eredeti minta.

Más szavakkal, a második mintát elmozdul mindaddig, amíg a kritérium nem perstala érezni a különbséget a nyírási. Megjegyezzük, hogy a nulla értéket a pontosság nem érhető el, mert „/> - folytonos függvény.

Így a offset becslést kapunk a függvényegyenlet meghatározva hallgatólagosan

Wilcoxon-teszt, ami becslések Hodges-Lehmann, azaz a becslések és. Figyeljük meg, hogy mi útmutatást a második esetben vezet a medián a sor minden párban Csak azok a párokat használunk a hagyományosabb kiviteli alakokban, amelyekben

Állandó ellenőrzés mértéke robusztusság, hogy jól válassza ki az értékeket intervallumban 1-2, például gyakran.

Ezután ál „/> számított új értékek” /> fit (és új). Lépéseket ismételjük, amíg a konvergencia.

Ha minden észrevételt elég pontos, a klasszikus értékelési diszperzió formájában egy külön megfigyelési \ sum „/>, és a standard hibát, a maradékot is ebben az esetben az értékelésére s” />, ahol az i-edik diagonális eleme a mátrixban.

Mikor együtt használják = y_i ^ maradékok módosított maradékokat -. „/>, Amint az könnyen látható, kiderül alábecsléséhez Megjelent skála elmozdulás lehet szüntetni beállításával (első közelítésben)

ahol - az esetek száma nem paraméterek száma, - állandó megfigyelések száma (= y_i „/>).

Nyilvánvaló, hogy ez az eljárás cáfolja a hatását külső megfigyelések.

Ezen a módon lehetőség van arra, hogy legyen egy robusztus kiviteli alakban minden olyan eljárás. Először is, az adatok „szerkesztett” - szubsztituált fejlődött megfigyelési kapott értékek a szerelés, és azután szekvenciálisan végezzük, amíg overfitting konvergencia eléréséig meg nem jelenik. Akkor kell alkalmazni a helyes eljárás az ál.

irodalom

  1. P. Huber robusztus statisztika. - Mir 1984.

Lásd. Szintén útmutatást az erőforrások felhasználásának MachineLearning.ru a tanulási folyamatban.