szegmentálása oldal

Néhány évvel ezelőtt (kb, ó, egy év telt el!) A kérdés, hogy valaki érdekes áttekintést modern módszerek szegmentálása az oldal képét dokumentumot kaptam pozitív választ (az massimus). És ma, végül úgy döntöttem, hogy ezt a felülvizsgálatot.

szegmentálása oldal
De a kezdet - egy kicsit kitérőt. szövegfelismerő rendszert termékeink lehet leírni nagyon egyszerűen. Van egy oldal szöveget, azt feldolgozni azt szövegblokkokkal, majd szedjük szét a blokkot külön vonalakat, szavakká, a szavakat betűket, betűket ismeri, továbbá a lánc mentén vissza, hogy összegyűjti az összes szöveget az oldal. szegmentáció probléma van megfogalmazva, mint ez: van egy oldal, meg kell lebomlanak a szöveges és nem szöveges elemeket.

Az oldalon vannak szöveget és képeket. Megiszunk blokkokra szövegek és képek kiemelni.

Tehát meg kell szakítani a szöveget blokkok és osztja a képet. Mint látható, a táblázatok, diagramok és más finomságokat nem beszél; Sőt, gyakran feltételezik, hogy nagy kontrasztú képeket, miközben binárissá is - azaz, a határok, elvileg lehet megtalálni munka csak a fekete-fehér kép.

Szintén tanulmányok gyakran használják a „Manhattan” és a „nemanhettensky» elrendezést. „Manhattan” - olyan, amelyben a határoló vonalak összes blokkot (mindegyik blokk vagy téglalap alakú, vagy jelentése több téglalapok, amelyben bizonyos részein a tetején és oldalán általános) „nemanhettensky” nem felel meg az ilyen korlátozások.

Kezdeni nézzük meg bizonyos algoritmusok célja, hogy működjön együtt a „Manhattan” dokumentumot.


Ez a legősibb algoritmus - talán az első dolog, ami eszembe jut, amikor szembesül azzal a feladattal, szegmentálás. Először le 1982-ben, vissza az év, egy cikkben K. Y. Wong, R. G. Casey, F. M. Wahl. Dokumentum Analysis System.

Dióhéjban így működik: vessünk egy kis paca szavakat függőlegesen és vízszintesen, a kapott terület lesz kötve kész blokkokat.

Ha le egy kicsit, ezt kapod:

  1. Vegyünk egy képet a lap RLE-ábrázolás
  2. Távolítsuk el a fehér RLE-stroke (= fehér képpont szekvenciája) hossza kisebb, lT_horz. Kapunk egy képet IMAGE_1
  3. Az eredeti kép 90 fokkal elforgatva az elforgatott képet távolítsa el a fehér RLE-stroke rövidebb lT_vert. Mi viszont a kép vissza, és kap egy képet IMAGE_2
  4. ÉS ezt IMAGE_1 képeket és IMAGE_2
  5. Az így kapott kép több Razik eltávolítja a fehér vonal hossza kevesebb, mint T_Final

Kapcsolódó területek a rögzített kép - befejezte blokkokat. Ezeket meg kell osztani a szöveges és nem szöveges. 1982-ben még nem volt ilyen arzenál gépi tanulás, nélkülük nehéz - a döntési fa kézzel festett.

Ez körülbelül nézd közbenső kép és sorkapcsok:

szegmentálása oldal

Az előnyök az algoritmus világosak - könnyű dolgozni RLE képet, és csak vele, és így gyorsabb. Az algoritmus maga sehol egyértelműen nem azon a tényen alapul, hogy a bemeneti dokumentum - „Manhattan”. Azonban, ha belegondolunk, hogy „nemanhettenskom” algoritmus nem fog működni - a lenti példában, a szöveg illeszti be a képet.

szegmentálása oldal

Az igazán rossz hír az, hogy a „Manhattan” dokumentum és beillesztés a szöveg „neteksta” is nagyon gyakori, SKB észre.

Rekurzív XY vágott


Keresztül, 1984-ben egy pár éve írták le a fejlettebb módszert oldal szegmentáció, az úgynevezett rekurzív XY vágás. Ő írja a cikkben G. Nagy S. Seth. «Hierarchikus ábrázolása optikailag beolvasott dokumentumok» A 90-es években aktívan fejlesztett.

Körülbelül ez a módszer azt kifejezetten kimondta, hogy ez csak arra jó, Manhattan dokumentumot. A módszer, hogy elosztjuk az oldal blokkokra felváltva elosztjuk a blokkok függőlegesen vagy vízszintesen. Azaz, az algoritmus a következőképpen néz ki:

  • Főzés oldalon megtisztítását kis törmelék
  • Válassza ki a csatlakoztatott régiókban. Akkor még egy kicsit a poobedinyat és kap valami hasonló szavakkal, ha hirtelen valaki tudja, hogyan kell biztonságosan építeni ilyen egyesületek. De ennek részeként utáni fogjuk hívni őket „csatlakoztatott régió”.
  • Kiszámítjuk a globális paraméterek az algoritmus, például az átlagos magasságuk és karakter szélességű.

Következő, mi fut az algoritmus rekurzív, kezdve az egész oldalon:
  • Keresünk mintha egy blokk lehet osztani függőlegesen vagy vízszintesen vágva.
  • Ha képesek voltak - megosztás és rekurzív futtatni a szétválás az egyes részek.
  • Ha nem, hagyja abba.

Pontjával kapcsolatban, hogy hogyan ossza el a készüléket. Kétféle módon - vagy fehér lumen (megtalálható a blokk vetülete a vízszintes vagy függőleges tengely, illetve), vagy a hosszú és kellően elszigetelt fekete egyenes vonal.

Ennek eredményeként ezek a részlegek faszerkezet kapunk jobb alsó az ábra szerint:

szegmentálása oldal

szegmentálása oldal

Őszintén szólva, nem a leggyakoribb konfiguráció, sőt az újságok, nem is beszélve a folyóiratok és az irodai dokumentumok. De vannak, az újságok, természetesen.

További súlyos probléma az algoritmus látott még a küszöböt benyújtását. Mondjuk ebben a fragmentum nehéz lesz elválasztani a fejlécet a szöveget, nem megtörve ezzel a címmel:

szegmentálása oldal

És itt nehéz lenne elkülöníteni a képet a szöveg, támaszkodva csak a távolság értékhatárt:

szegmentálása oldal

Természetesen minél több releváns és közös az összes mutatja be ezt a bejegyzést algoritmusok probléma - ne szakadjon a számozás számozott lista és hogyan lehet megszabadulni a korlátozásokat, hogy már az elején (csak szöveg és nagy kontrasztú kép).

Szegmentálás felhasználásával maximális fehér téglalap


Most mondja meg az ötlet, hogy szegmens az oldalt maximális fehér téglalapok. Mi az a „legnagyobb fehér doboz”? White - ez azt jelenti, hogy nincsenek fekete foltok (persze, a kép először megszabadulni a finom por). Maximum - azt jelenti, hogy lehetetlen, hogy növelje vagy balra, jobbra vagy felfelé vagy lefelé úgy, hogy fehér marad. Továbbá, ahelyett, hogy a fekete foltok, úgy véljük, a csatlakoztatott területen. Ahogy a rekurzív szakaszok, amit lehet, hogy valahogy sgruppirrovat, de a lényeg, ne lakjanak rajta. Egyértelmű, hogy szinte minden beolvasott oldal fehér téglalap - több tízezer. De a legnagyobb szükség lehet szegmentálás céljából. a keresési algoritmus javasolt a cikkben Thomas M. Breuel. Két Geometriai algoritmusok elrendezés elemzés

második algoritmus a «két» megkülönbözteti a fehér vonalak határolják, de nekem úgy tűnik, hogy ez nem egy különösen kiemelkedő, ha valaki érdeklődik, lásd a cikket.

Térjünk vissza arra a problémára, hogy megtaláljuk a maximális fehér téglalapok. Lehetőség van, hogy a koncepció a „minőség” a téglalapot.

Hívjuk Q (r) r minőségű monoton függvény a téglalap. Amennyiben R1 ⊆ R2 végre Q (R1) = 1), és a T2 és Ta - még mindig két küszöbérték. Az mit jelent ez a feltétel, hogy szükséges, hogy összekapcsolják a két szót egymás után, de ha ez a két szó különböző magasságúak, meg kell egyesíteni sejtek nagyobb körültekintéssel.
Amint megtaláltuk a kívánt cellákat egyesíteni, kombinálják őket - és Voronoi diagram átalakul elkészült részleteit.

Hátrányai Voronoi diagram megint ugyanaz - korlátozás csak attól függ a küszöböt, a bizonytalanság képekkel. Kétségtelen előnye ennek a módszernek is rejlik az a tény, hogy az csupán három paraméter kell választani - és ezek a paraméterek külön megadni.

Ez arra a következtetésre jutott a felülvizsgálat a tudományos eredmények az oldalhoz kapcsolódó szegmentáció. A tudomány, azt hiszem, még a szót mondani :)

Kapcsolódó cikkek