Oracle dolgozni nagyon egyszerű szöveges dokumentumok, számítógépes nyilvántartás tól Z-ig

Oracle: a munka nagyon egyszerű szöveges dokumentumokat

Oracle Text egy teljes munkaidős lehetőség, az Oracle tárolt együtt a szokásos adatokat egy közös adatbázisba dokumentumokat, és épít a lekérdezéseket, hogy ezeket a dokumentumokat, valamint a tárolt fájlokat az operációs rendszer vagy az interneten. A dokumentumok bemutatott különböző formátumokban. Tekinthető dolgozik Oracle Text alkalmazásán alapuló szövegének CTXSYS.CONTEXT típusú index, és tartalmazza operátor.







Az Oracle Database ismert, elsősorban a rendszer „factographic” adatok, de az első felében a 90-es évek kezdtek megjelenni a lehetőséget, hogy tárolja és kezeli a „nehéz rendezett” adatokat. Az egyik első ilyen alkalom volt a munka verzió 7.3 egy félig-strukturált adatok: szöveges dokumentumokat.

Ahhoz, hogy ez a nap a lehetőséget, hogy a szöveges dokumentumok az Oracle megváltoztatta a nevét többször (SQL * TextRetrieval -> Text Server -> Oracle környezet -> Oracle Text) és jelentősen fejlődött. Kezdve 9-es verzió, be van építve a normál ellátás az Oracle adatbázis, nem igényel, mint korábban, egy különálló licenc és automatikusan bekerül a hagyományos adatbázis. Ennek hiányában ez a funkció az adatbázis lehet telepíteni függetlenül, vagy a segítségével a DBCA, vagy futtassa a script dr0inst.sql (9-es és korábbi) vagy catctx.sql (version 10) [ORACLE_HOME] / CTX / admin.

Oracle Text képességek belső használatra, mint például az Oracle Ultra Search, Content Management (korábban IFS) vagy XML DB.

Szöveg képességeit Oracle adatbázis alapján egy speciális típusú index, amely az egyik beépített változat a „cél” index (tartomány index), használt a munkaszervezés és a kemény rendezett adatokat. Oracle Text van egy kész háromféle szöveg index:
  • CTXSYS.CONTEXT - elvégzi a teljes szöveges keresést szöveges dokumentumok;
  • CTXSYS.CTXCAT - elvégzésére egyszerűsített és gyorsított a keresést a „könyvtár” (egy vagy két soros szöveges leírások);
  • CTXSYS.CTXRULE - az építési a „besorolása” dokumentumok, annak ellenére, hogy az osztály által leírt egy sor konkrét kéréseket.

általános jellemzői a legnépszerűbb fajták CTXSYS.CONTEXT index tárgyaljuk. Ez a fajta szöveg index tárolását teszi lehetővé a szöveges dokumentumok egy adatbázisban, és teljes szöveges keresések dokumentumok mind a belső tároló és külső (fájlrendszer, az internet).

A kényelem, hozzon létre egy külön felhasználói:

Szerepek CONNECT és erőforrás-CTX a felhasználóhoz rendelt az egyszerűség kedvéért említjük, és azok helyes alkalmazását a munka DB; szerepét CTXAPP eszik, lényegében anélkül, hogy polzovattel CTX nem tudja elérni a szükséges létesítmények CTXSYS rendszer. befejezett:







Megjegyzés: DOCS_VC2DOC_IDX index - nem egyszerű, de az „alkalmazott» (domain); hogy pontos legyek - előre definiált típus CTXSYS.CONTEXT, azaz a „Szöveg”. Általában a teremtés ilyen index megjelölését tartalmazza egy speciális lehetőségekkel (példák alább), de az első ismerős inkább támaszkodnak néhány alapértelmezett jellemzőit.

Az alapot a kéréseket a dokumentumokat az index típusa CTXSYS.CONTEXT az „üzemeltető» TARTALMAZ. Szerint a használatra Oracle SQL gyakorlatilag megegyezik a funkciót. TARTALMAZ szereplő visszatér az intézkedés, mert különben a megfelelés mértéke a dokumentum szövegét lekérdezés ( «relevancia»).

Néhány magyarázó példák. előkészítés:

Felhívjuk figyelmét, hogy a mértéke megfelel a dokumentumra vonatkozó kérelmet nem egyszerű használatának gyakorisága szó a dokumentumban. Ez attól is függ az összes kért dokumentumokat és a dokumentumok száma, amely a kívánt szót formákat. A számítás alapja az Oracle képlet Salton. Az eredmény, amely megadja a képlet jelenik meg a egész szám tartományban 0 és 100 közötti.

Az alábbiakban néhány példát, függetlenül végrehajtható, segít tisztázni a TARTALMAZ szereplő viselkedését, és kap egy ötlet néhány kiegészítő képességeit keretében lekérdezés:

A teljes lista és leírás realizovanna szereplők összeállításához a lekérdezés keretében a dokumentumokat (az úgynevezett „üzemeltető” rosszul egybeesik a neve „üzemeltető” TARTALMAZ funkciót is) elérhető az Oracle dokumentációt.

A gyakorlatban a használata hivatkozás tartalmazza a kifejezéseket a kialakulását az oszlopok SELECT záradék nem mindig kényelmes, és nem a hatékonyság növelése. Erőltetett ebben a tekintetben az intézkedés - függvény segítségével ( „üzemeltető») SCORE visszaadja ugyanazt az eredményt, mint a TARTALMAZ, de lehet ismételni többször a lekérdezés, félelem nélkül lassítják számítás. Azonban, mivel a TARTALMAZ szereplő lekérdezés is előfordulhat néhány, feltalált egy speciális technikát numerikus „Tag”, a megfelelő pontszámot, és tartalmazza szereplők által egy SQL lekérdezés. Címkék vannak megadva paraméterként szereplők (egy másik kényszerű és nem túl elegáns intézkedés), és véletlenszerűen kiválasztani. Példák a technika:

Szinte feldolgozása szöveges információk az Oracle Text a szöveg index. Informálisan ő szervezi tároló „fordított listát”, amely szerint a bemutatott keresési kifejezés termel pár listát <документ, словоместо>. Ehhez ő tartja a dokumentumok listáját, állásfoglalásokat, szóalakok egy vagy több indexelt szavak minden pozícióban.

Technikailag a szöveg index bonyolultabb a hagyományos B-fa index vagy bitenkénti legalábbis, amely végre egyszer egy csoport objektumok és egy csoport tároló szerkezetek. Ez könnyen elkészíthető:

Példa kibocsátó az asztalon DR $ DOCS_VC2DOC_IDX $ I:

Egy másik különbség a szokásos szöveg index, hogy ez nem helyes, automatikusan egy dokumentum szerkesztése. Például:

Mivel a nehézkes szöveges index tájékoztatás a szükséges javításokat gyűjtik külön táblázatban, és szerkesztés maga kézzel végzik, szükség szerint:

(A szinkronizálás az index, és akkor az ALTER INDEX parancs, de most az Oracle nem javasolja ezt a cég.)

Normál fogadás - hozzon létre egy munkát a tervezett kiigazítást a szöveg Ütemezett index.

Ügyetlenség (részben kényszer) szerkeszti text index ellensúlyozta a nagy sebességű keringés hozzá az adatbázis lekérdezésekor. Azonban figyeljük lekérdezés terv ebben az esetben szükséges eredetileg. Normál parancsot EXPLAIN PLAN sok nem, de a hivatkozás a szöveg ( „Alkalmazás”) index, ő megjegyezte:

(Form kibocsátó terv 10 megfelel a változat, ahol az elkészített anyag).

Részletek a szöveg kitermelés (nem SQL) lekérdezés megfigyelhető egy külön táblázatban, hanem a szokásos PLAN_TABLE. Készítsen lehet benne valami, mint ez: