keresési index

Először is, ez az index a tájékoztatás keresést. Index (Index lat -. List, index) - általában a megrendelt linkek listáját. Különböző típusú indexek sokáig arra használnak, hogy megkönnyítsék az az információ visszakeresése. Például egy tartalomjegyzéket, ahol a fejét a nevéhez az oldalszámot, ahol a fej található.

Részletesebb index - az index, amely már megvalósult közötti kapcsolat „egy a sok”: minden jelentős távon van leképezve oldalak listáját, ahol a kifejezés szó. Következő lépés - összhang legyen. Ez egy szótár, ahol minden szó párosított „koordináták” előfordulását a szó a szövegben. Általánosságban elmondható, hogy ez az, amit az úgynevezett „fordított index”, amelyet a legismertebb keresőkben.

Ezek két index változatok észre kommunikáció különböző irányokba. Képzeljünk el egy gyűjtemény a szöveges dokumentumok és a teljes szavak listája megtalálható ezekben a dokumentumokban. Minden dokumentum a gyűjtemény egy egyedi azonosítót docid, minden szó - egyedi azonosító WordID.

Közvetlen index - asztali kapcsolatok, ahol az egyes docid leképezett teljes listáját WordID ebben a dokumentumban a szavakat.

Invertált index - asztali kapcsolatok, ahol az egyes WordID leképezett lista docid, ahol a szó előfordul.

Inverz index ideális a keresést. Honnan ez nagyon egyszerű venni docid dokumentumok listáját, amelyek tartalmazzák a keresett kifejezést. Ha egy lekérdezés két szót, válassza a két listákat iratok (WordID mindkét szó). Ezután válassza ki azokat docid, amelyek szerepelnek mind a listán, és kap a végleges lista docid összes dokumentumot, amennyiben mindkét szó előfordul.

Próbáljunk egy kicsit nehezebb a szerkezet az index. Az invertált index minden docid hozzá az előfordulások számát szó a dokumentumban. És a legtöbbet nyers és primitív eszköz meghatározásához fontos a szavak a dokumentum (a gyakrabban ismételjük, annál fontosabb). És közvetlen index minden bővítmény WordID pozícióját a dokumentum, amely kezdődik a legmegfelelőbb szó erre idézet. Most már van egy kész eszköz kivonására a kódrészletet kiadásának egy dokumentumot, az úton.

Természetesen, mielőtt használja ezeket az eszközöket, meg kell feldolgozni (index) a teljes gyűjtemény a dokumentumok. Ehhez minden dokumentum elemzett szavakká, egyidejűleg kiszámítja az előfordulások számát minden szó, hogy össze egy szótárt és az indexek. Ha nem közelítik meg a fontosságát szavak a szövegben olyan durva, és kiszámítja a fontosságát a szavak a szövegben Zipf törvényét. már kapott elég a megfelelő eszköz a rangsorban a talált szövegeket.

A leírás az index, ha már világos, hogy ez egy ideális eszköz, hogy keressen egy külön szót. Triviális feladat: a WordID ID válasszon az adatbázis minden DocId dokumentumot, amennyiben a szó előfordul. A rangsor szintén nem nehéz, ha minden docid az adatbázisban tárolja az információkat arról, hogy ez a kulcs szó a szövegben, illetve arra, hogy másodlagos, és közvetlenül nem kapcsolódik a témához. Azaz, minden link «WordID - docid» kell elkészíteni információt a jelentősége a dokumentum ezen a módon.

A kérés esetén két vagy több szót a feladat nagymértékben bonyolult. A mintavételi eljárás meglehetősen egyszerű, ez egy általános probléma az elmélet adatbázisok: válassza ki a dokumentumot, amely tartalmazza az összes keresőszavak. De a rangsor az ebből eredő nehézségek várnak ránk. Ebben az esetben meg kell, hogy vegye figyelembe a jelentősége a dokumentum nem minden szava, vagyis ez a szóösszetétel, illetve rangsorolás sok esetben ez lesz a hiba. Hogy tisztázza a jelentősége a szóösszetételt legalább meg kell vizsgálni, hogyan osztja ezeket a szavakat a szövegben:

nem egy sorban, de egy menetben,

a szomszédos részeket,

megtalálható a különböző részein a szöveget.

Ez a durva módja a meghatározó relevanciáját. Az első esetben, a jelentősége a dokumentum teljes, a második gyengébb a harmadik - már megkérdőjelezhető, a negyedik - a minimum. Pontosabb becslést a két első megvalósítási figyelembe kell venni, hogy a kérelmet ahhoz a szavak a második és a harmadik kiviteli, figyelembe véve a távolságot a szavak között (ahogy sok idegen szavak „beékelődött”).

Annak érdekében, hogy a teljesség keresési szükséges figyelembe venni a igénylőlapot szó - így az index kell, hogy a szó eredeti alakját (pl főnevek - egyes szám, alanyeset) és a link az összes lehetséges szóalakok. Ugyanakkor, hogy megtalálják a pontos előfordulását képes keresni minden szóalak. Ez bonyolítja a kereső adatszerkezetek, ami egy sor indexek (nyilvánvaló okokból tompa kísérése kis segítség itt).

Kapcsolódó cikkek