Automatikus szöveg absztrakció

Fordítás angolul: Mashchenko Nikita

A világhálón elért óriási növekedés és könnyű elérhetőség a közelmúltban a klasszikus nyelvtudományi feladat megújulását eredményezte - a szöveges dokumentumok információinak kondenzációja. Ez a feladat az adatfeldolgozás folyamata. Ezt a folyamatot kézzel használták idők óta, és először használtak számítógépet az 50-es évek végén. A megadott információnak a kiválasztáson és az általánosságon alapulnia kell, vagy az eredeti szöveg fontos tartalmának és következtetéseinek megfelelően kell történnie. A legújabb tudományos ismeretek és a nagyobb teljesítményű számítógépek új problémát jelentenek, lehetőséget adva a túlterhelés információproblémájának megoldására, vagy legalább a megoldás elhalasztására és a negatív hatások csökkentésére.

Számos különböző definíció létezik, amelyek valójában elvont szövegeket jelentenek. Például:

a dokumentum tartalmának tömör, de pontos bemutatása;
a források legfontosabb információinak lepárlása egy adott felhasználónál / felhasználónál csökkentett változat készítéséhez, feladatok / feladatok elvégzéséhez;

A főbb információkkal jellemezhető mennyiségi jellemzők a következők:

szemantikai információk (az eredeti szöveg alapinformációiból átstrukturálható képességének mércéjének tekinthetők);
szekvencia (azt mutatja, hogy az összefoglaló részek hogyan alkotják az integrált szekvenciát);
tömörítési arány.

Automatikus, azaz számítógépes elvonulás története 50 évvel ezelőtt kezdődött. A Hold módszer a kifejezés gyakoriságát használja, hogy megvizsgálja a mondatok elfogadhatóságát az alapvető információkhoz. Fő gondolata azon a tudáson alapul, hogy a legtöbb információt hordozó lényeges szavak nem túl gyakoriak és nem túl sokszor ismétlődnek a szövegben. A szavak jelentésének határainak meghatározása gyakoriságuk révén tapasztalat kérdése lenne. A következő lépés a mondatok rangsorolása, ami tükrözi a jelentős szavak számát és távolságát a mondatban. Ezután csak egy vagy több, valamivel jelentősebb eredményt kell kiválasztani. Meg kell jegyezni, hogy a Hold motivációja az információ túlterhelése volt.

A következő jelentős haladás tíz évvel később történt meg. Edmundson munkája bemutatta a kifejezések viszonylag magas információs értékét, a mondatok elejétől kezdve és a cikkek megkötésétől, a replika és a kifejezések "fontos", "eredmény", "cikkek" stb. Szavakat tartalmazó mondatokat. Még ha a következő évek is további eredményeket hoztak, a terület újjáéledése és jelentős előrehaladása történt a kilencvenes években. Ez a mesterséges intelligencia módszerek szélesebb körű alkalmazása ezen a területen és különböző módszerek kombinációja a hibrid rendszerekben. Az új évezredben a WWW terjeszkedése kapcsán a dokumentumok csoportosításának, a multimédiás dokumentumok általánosságának és az új algebrai adatcsökkentési módszerek alkalmazásának megismerése iránti érdeklődés elmozdult.

1. A klasszikus elveken alapuló módszerek rövid áttekintése

1.1 Innovatív munka

Az automatikus szöveges absztrakció első megközelítései csak a döntési index egyszerű (felületi) szintjét használták, mely szövegrészek a fő szövegben szerepelnek. 1958-ban kidolgozták a javaslat fontosságának legrégebbi algoritmusait, az alapötlet az volt, hogy az író bizonyos témákat megismételne, amikor témáról írt. A fogalmak jelentését arányosnak kell tekinteni a kapott dokumentumok gyakoriságával. Más relevancia-mutatókat a dokumentumok használnak a replikák (például "fontos" vagy "releváns" szavak) vagy a címben szereplő szavak jelenlétében. A kivonatok előállításához a replikák, a nevek és a javaslatok helyzetének kombinációját használták, és ezek hasonlóságát az absztrakt emberi írásával bizonyították.

1.2 Statisztikai módszerek

A (z) [] 4-ben bebizonyosodott, hogy a dokumentumfogalmak relevanciája fordítottan arányos a szóban forgó dokumentumban található dokumentumok számával. A kifejezés relevanciájának értékelésére szolgáló képletet tfi x idfi adja meg, ahol tfi a dokumentumban szereplő i kifejezés gyakorisága, és idfi az e kifejezést tartalmazó dokumentumok gyakorisága. A pályázatokat ezután lehet kiválasztani, például összeadva a mondatok jelentőségét.

1.3 A szöveg csatlakoztatásának képességén alapuló módszerek.

A szöveg korábban említett részeihez kapcsolódó anáforikus kifejezéseknek ismerniük kell elődeiket annak érdekében, hogy érthetőek legyenek. A módszerek hozzáadása nem feltétlenül tükrözi a szöveg fogalmai közötti kapcsolatot. Ha egy anáfikus kapcsolatot tartalmazó mondatot kihagynak az előző kontextus nélkül, a fő szöveg érthetetlenné válhat. A csatlakoztatott tulajdonságok közé tartozik a szövegkifejezések közötti kapcsolat. A kivonatok különböző megközelítései alapján vizsgálták őket.

Emlékezzünk a Lexical lánc módjára, amelyet bemutatunk [7]. A WordNet tezauruszt használja a feltételek (azaz az ismétlés, a szinonímia, az antonymy, a hypernymy és a holonímia) közötti összefüggés meghatározása és a kapcsolódó viszonyok között. A készletüket a láncban levő kapcsolatok számának és típusának alapján határozzák meg. Csak azok a mondatok kerülnek kiválasztásra, amelyekben a legerősebb láncok rendkívül koncentráltak. A hasonló módszer, amelyben a mondatokat a tárgyak szerint választották, bemutatták [8]. Az objektumokat a ko-referencia-felbontási rendszer azonosítja. A referencia felbontás meghatározza, hogy két kifejezés ugyanazon objektumra utal-e természetes nyelven. Olyan mondatok, amelyekben a gyakran említett tárgyak előfordulása egy meghatározott határértéket meghalad, a fő szövegben szerepelnek.

A szöveget összekapcsoló módszerek egy csoportjában bevonhatjuk a retorikai struktúraelmélet (RST) módszert. Az RST egy elmélet a szöveges szervezetről. Sok olyan retorikai kapcsolatból áll, amelyek összekapcsolják a szövegegységeket. A kapcsolatok megkötik a magot - ami a legfontosabb dolog az író céljában. A kapcsolatokból egy fa nézet, amely egy szövegegység kivonására szolgál a fő szövegből. A mondat végső értékelését a gyökértől a mondathoz tartozó súlyok összegével adjuk meg. A [10] -ben minden szülő-csomópont jelentős nukleáris gyermekeket azonosít. A gyermekek hozzájárulnak a szülői szinthez. Ez a folyamat egy rekurzív fa. Az egységszámlára a promóció után kapott szintet kapjuk.

1.4 Grafikus módszerek ismétlése

1.5 A tézisekhez közeledve

következtetés

Bemutattuk a szöveg absztrahálásának automatikus kutatási területének történetét és állapotát. Legnagyobb figyelmet fordították az algebrai redukciós módszerekre alapozott megközelítésekre. Különlegességük, hogy csak a körülmények összefüggésében dolgoznak, és így nem függenek egy adott nyelvtől. Az elvont módszerek értékelése ugyanolyan fontos, mint a saját összefoglaló. A DUC (Document Understanding Conference) éves konferenciája útmutatást adott a szöveg értékelési folyamatában. Ennek ellenére az egyetlen teljesen automatizált absztrakciós módszer ROUGE [32], amely összehasonlítja az ember által írt cikkeket és rendszer szövegeket n-grammokkal összhangban. A DUC '08-ban részt veszünk az absztrakció új módszerével, amelynek alapja az LSA tenzoron alapul. Két dimenzió helyett három feltétel, javaslat és dokumentum kerül felhasználásra. Három dimenziót használunk ahelyett, hogy kettőt használnánk - feltételek, javaslatok és dokumentumok. A módszer elgondolása az, hogy a két mondat egymáshoz közel áll a jelentésben.

Források listája

Kapcsolódó cikkek

előző ◈ a következő