Az orosz nyelv nemzeti épületének frekvencia szótára

GYORS LETÖLTÉS
AZ OROSZ NYELV NEMZETI ESETLEG: A KÉPESÍTÉS KONCEPCIÓJA ÉS TECHNOLÓGIÁJA

AZ OROSZ NEMZETI CORPUS FREKVENCIAI SZÓJEGYZÉK: ELVEK ÉS TECHNOLÓGIA

A szótár képviselője alapszókincs modern orosz nyelv (a 2. fele XX - XXI elején században.) Tájékoztatást a használat gyakoriságától, a statisztikai eloszlás szövegek és műfajok, a létesítmény a szövegeket. A szótár alapján szövegek az Orosz Nemzeti Corpus volumene 100 millió. Diskurzus.

Táblázat. 1. A modern orosz nyelv szubkórusának funkcionális stílusai

2. A tok mérete és a mintavétel megbízhatósága

Meglévő gyakorisága szótár az orosz nyelv épültek viszonylag kis burkolatok: az első generációs számítógépek nem működnek egy nagyobb ház. Érdekes, az elméleti ajánlást dolgoztak ki a 1970-es években (Piotrowski és mtsai. 1972), szintén bebizonyította, hogy, a megbízható leírás 1600-1700 leggyakoribb szóméretet elegendő használni test 400 ezer. Token. Ezt az érvet az elgondoláson alapul, a konfidencia intervallum, amely széles körben használják a statisztika és a szociológia: ha ismerjük a minta mérete és kísérleti valószínűsége esemény a mintában (azaz gyakorisága esetünkben a szó), ki tudjuk számítani a megbízhatósági intervalluma a valószínűsége ennek az eseménynek az egész (azaz ugyanazon szónak a teljes nyelvterületen való használatának gyakoriságát).

Táblázat. 2: Az egyes szavak gyakoriságának összehasonlítása (millió szó szerint).

Amint látja, a hajótest megfelelő méretére vonatkozó elméleti ajánlások ebben az esetben nem nagyon megbízhatóak. Ennek oka a normál Gauss-frekvencia-eloszlás kezdeti feltételezései, amelyek szerint minden szó ugyanolyan gyakorisággal találkozik minden szövegben. Ha a szó egyszer felmerül a szövegben, akkor normál eloszlás esetén ez nem befolyásolja annak valószínűségét, hogy ott másodszor is használják. De a valóságban ez nem így van. Minden szövegnek van egy saját témája, amelynek szövegét ebben a szövegben sokkal gyakrabban használják, mint az átlagot. A hobbitokra vonatkozó szövegben a hobbit szót olyan gyakran használják, amilyen sok kiegészítő szó, ami jelentősen megnöveli a gyakoriságát ebben az esetben, amely legalább egy ilyen szöveget tartalmaz [1]. Ennek eredményeképpen a testületek alapján épített frekvencia-lista tükrözi azoknak a szövegeknek a sajátosságait, amelyek a fordítás során keletkeztek.

ahol # 956; - a szóban forgó szó átlagos gyakorisága az egész testben, # 963; - a frekvencia szórása egyedi dokumentumokon, n - azon dokumentumok száma, amelyekben ez a szó fordul elő.

Az érték D szava legtöbb dokumentumot, közel 100, míg a szavak gyakran találkozhatunk csak kis számú dokumentumot közel 0. Frekvencia Lenngrena még szókincs lista értékének ez a termék az átlagos együttható szógyakoriság. Tekintettel arra, hogy az elméleti állapotát a munka nem egyértelmű, nem tartotta tanácsosnak, hogy rendezni a szókincs érte. Az egyes szavakra vonatkozó jelzések azonban lehetővé teszik annak értékelését, hogy mennyire egyedi az egyes tématerületekre. Például, szavakat Eerie specifikus és nyersanyag közelítőleg egyenlő a frekvencia (21 fogyasztás egy millió szó), de a D aránya egy adott - 66, alapanyag - 18, míg a hátborzongató - 78, ami azt jelenti, hogy az utolsó szó jelentős egy nagyobb számú a tárgyi területek és (más dolgok egyenlőek) nagy esélye van arra, hogy egy nem szakosodott szótárba kerüljenek.

3. Szótár szerkezete

A szótár koncepciója egy "papír" verzió kiadását feltételezi egy kísérő elektronikus verzióval, amely egy teljes szöveges szótárban jelenik meg. A szótár rész a következő részeket tartalmazza:

I. Általános szókincs

# 9679; a lemmák betűrendes listája

# 9679; a lemmák gyakorisági listája

# 9679; a lemmák elosztása funkcionális stílusok szerint:

Ø fikciós hangfájl-szótár,

a fikció értelmes szókincsének szótárából

Ø az újságírás,

értelmes újság és hírleírások szókincse

Ø más non-fiction irodalom,

értelmes szókincs szókincse

Ø élő szóbeli beszéd hangfrekvenciája,

az élő beszéd értelmes szókincsének szótárából

# 9679; a szóalakok betűrendes listája

# 9679; a főnevek gyakorisági listája

# 9679; az igék gyakorisági listája

# 9679; a melléknevek gyakorisági listája

# 9679; az adverlések és predikátumok gyakorisági listája

# 9679; névmások (névmások, melléknevek, melléknevek, predikátumok) gyakorisági listája

# 9679; a beszéd hivatalos részeinek lemmmáinak gyakorisági listája

III. Segéd táblák

# 9679; a részmunkaidős osztályok és egyéb statisztikai adatok gyakoriságáról

IV. Saját nevek és rövidítések

# 9679; a lemmák betűrendes listája

A betűrendes lemmákból a neve a lemma, része a beszéd, a teljes frekvencia a lemma, a dokumentumok száma, ahol találkozott és variációs koefficiens D. teljes előfordulási ismerteti az előfordulások számát egy millió szó szerv vagy ipm (példányok per millió szó). Ezt annak érdekében, hogy egyszerűsítsék az összehasonlítás gyakoriságának szó a különböző épületek, ami meglehetősen eltérő méretű. Például, ha a hatalom a szó előfordul 55-szer a test mérete 400 ezer. Szavak 364 alkalommal egymillió ház és 40598-szor 100000000. esetén modern orosz nyelv és 55673-szeres nagy 135-millio¬nnom NKRYA szervezet, ennek gyakorisága ipm lesz 137,5, 364,0, 372,06 és 412,39. Az elektronikus kiadás betűrendes listája 60 000 leggyakoribb lemont tartalmaz.

A lemma listáján a lemma, a beszéd része, a lemma teljes gyakorisága, a dokumentumok száma, a D együttható és a frekvencia eloszlása az évtizedek alatt szerepel. A gyakoriságlista 20 000 leggyakoribb lemont tartalmaz.

A funkcionális stílusok gyakorisági szótárai a fikció, az újságírás, az egyéb nem-fikciós irodalom és a szóbeli beszéd alkörzete alapján készülnek. A lista az ezeknek a alcsoportok 5 000 leggyakoribb lemmáját tartalmazza. A legelterjedtebb lemmák listáját minden egyes szövegtípus esetében a lemmák gyakoriságának az ilyen szövegekben és a test többi részében történő összehasonlításánál különválasztottuk. Összehasonlítási mutatóként a valószínűségi arány kritériumot használtuk (log-likelihood), amelyet a következő mátrix alapján számítottunk ki:

A különböző funkcionális stílusok értelmes szókincsének szótárai 500 lemmát tartalmaznak.

A szóalakok betűrendes listája magában foglalja az eset minden olyan szóformáját, amelyek 0,1 ipm-nél nagyobb frekvenciájúak (csak mintegy 15 ezer); a szó formájának teljes gyakorisága adódik. A homonymous szóalakokat * jelöli.

A "beszéd részei" részben a lemmák gyakorisági listája hat al-listára osztható: főnevek, igék, melléknevek, adverlések és predikátumok, névmások és beszédi szolgáltatási részek. Minden lemma esetében a teljes frekvencia és rangsor (rendszám) szerepel az általános listában. Minden lista 1 ezer leggyakoribb lemmát tartalmaz.

A megfelelő nevek és rövidítések jegyzékének összeállítása érdekében a főnévek és a rövidítések nevét írják le, amelyek szövegezése nagybetűvel meghaladja a 95 százalékos küszöbértéket, vö. Oroszország, Smirnov, Állami Regionális Erőmű, Külügyminisztérium, Munka Törvénykönyve. [2] A listán szereplő, a 3.000 leggyakoribb egységet számláló nukleáris rész szerepel a szótárban.

A hagyomány szerint megállapított ilyen kiadványok lapjain a szótárban mutatja a címsor „Érdekességek”: megjelent listákat a legnépszerűbb szó a különböző lexikai csoportok (a hét napjai, az időjárás, a színek, az igék a mozgás, stb), valamint a leghosszabb szóalakok és egy frekvencia lista írásjelek.

Táblázat. 3: A ruházati és lábbeli gyakorisági listája.

Példaként a 3. táblázatban megadjuk a ruhák és cipők főnevét. Amint az várható volt, a lista tükrözi, egyrészt a „tipikus” eleme a szekrény (csizma csak elfoglalni a 26. helyen a listán), és másrészt, hogy „fontosságát”, hogy leírja egy személy megjelenése a szövegben (ruha - több észlelés elszigetelt dolog, mint cipőt).

4. A szókincs előkészítése

Orosz nyelv, mint egy nyelv gazdag inflexiós teremt további nehézségeket készítők frekvencia szótár, annyi szóalak szövegekben azonos alakú (sze wordform kezdett, mint a forma az ige lett főnév acél. Wordform bank. Képviselete lemma Bank és a Bank. A szavak, mint a hit és a hit) . Azonban a frekvencia szótárban eredeti formájában a szó vagy lemma, hogy tulajdonítható egyetlen szóalak egyedülálló.

Mivel az automatikus felbontás homonimák és értelmezése a nem szótári alakot tesz némi, bár kicsi, hiba, homonima tartozó első 20.000 szó frekvencia vetettük alá további kézi ellenőrzés.

Vinogradov V.V. (szerkesztő megjegyzése). Puskin nyelvének szótára. T. I - IV. M. 1956-1961.

Zasorina L.N. (Eds.). Az orosz nyelv frekvencia szótárja. Moszkva: orosz nyelv. 1977.

Piotrovsky R.G. Bektayev K.B. Piotrovskaya A.A. Matematikai nyelvészet. M. Gimnázium. 1972.

Stepanova E.M. Az általános tudományos szókincs gyakoribb szótára. M. 1976.

Steinfeld E.A. A modern orosz irodalmi nyelv frekventációs szótár. Tallinnban. 1963.

Josselson H.H. Az orosz szóösszetétel és a nyelvtani frekvenciaelemzés. Detroit: Wayne University Press, 1953.

Juilland A. Brodin D. Davidovitch C. A francia szavak gyakorisági szava. Hága - Párizs: Mouton, 1970.

[2] Különösen vegye figyelembe, hogy a melléknevek, mint Hristov, Petin, Kostroma / Kostroma általános szókincshez tartoznak.

Kapcsolódó cikkek

előző ◈ a következő