Nozdr - mintegy karakterkódolásokat

meghatározzák

Először is meghatározásokat. A modern számítógépek tárolják az összes információt bináris bájtok, azaz a. E. 8-bites egységek érték lehet 0 és 255 Annak érdekében, hogy tárolja a numerikus számítógép memóriájában, és a szöveget, meg kell határozni, mi a byte vagy bájt kódolni fogja minden egyes karakter, hogy előfordulhat a szövegben. Az ilyen levelezés közötti szimbólumok és a kódolás bájtok nevezik kódoló szimbólumok (karakterkészlet). Könnyen érthető, hogy egyrészt minden kódolás célja, hogy egy adott emberi nyelv (pontosabban egy adott script), másrészt, hogy az ilyen nyelvi kódolások lehet gondolni bőven. Ismerve az emberi természet, nem nehéz kitalálni, és hogy jön ki sokkal több, mint amire szüksége van. Persze, hogy mi történt: a legfejlettebb eddigi konverziós függvény könyvtár ICU (International Components for Unicode), az IBM támogatja a több mint 170 féle kódolás.

kódolás Latin

Nézzük meg a kódolás a fenti script, ami gyakran szembesül egy orosz fejlesztő, t. E. latin és cirill. A latin ma használ két alapvető kódolás: ASCII és EBCDIC. ASCII (American Standard Code for Information Interchange) - egy hét bites kód táblázat (karakter kódok 00 - 7F vagy 0-127 decimális), amely szabvánnyá vált a kis- és közepes méretű számítógépek, és ezért a szabványos web. Ez byte hexadecimális kódja 00 - 1F és 7F kódolására használjuk a kontroll (nem vizuális) karakterek és a többi karakter van kódolva az alábbiak szerint:

Kódolás EBCDIC (Extended Binary kódolt decimális Interchange Code) - Ez a nyolc bites kódolás (karakter kódok 00 - FF vagy 0-255 decimális) által elfogadott összes IBM számítógépek, de PC-n. Az ember nem említi, de a fejlesztés XML, mint az elsődleges szállítási formátumát adatait a hálózaton, akkor egyre inkább szembesülnek XML-fájlok keletkezett nagy gépek. Itt byte-kód 00 - 3F kódolás vezérlő karakterek, a többi pedig a következőek:

Cirill kódolások

Coding „A nem latin” alfabetikus írásrendszerek alábbiak szerint rendezték el. Ezek kódolt nyolcbites asztal (1 bájt = 1 szimbólum), azaz a szám 00 - .. FF (0-255 decimális) úgy, hogy az alsó fele a kódkönyv (kódok 00 - 7F vagy 0-127 decimális) a ASCII. és a felső fele (kód 80 - FF vagy 128-255 tizedes) egy nemzeti karakterkészlet, azaz az orosz betűk az orosz kódkönyvben török ​​török, stb ilyen szervezet országos kódtáblákban lehetővé teszi, hogy megfelelően megjelenítse és feldolgozza a leveleket, .... számokat, írásjeleket bármilyen számítógépen, függetlenül annak rendszer beállításait. Ez így van, különösen, rendezett és orosz karakterkészletek, hogy mi lehet a további vélik, csak az idősebb felét.

A történelem az orosz karakter - egy példa a zavart, ritka még a mi számítógép valóság. Szovjet szabványügyi szervezeteket, hogy a látogatók fogadására, számítógép-gyártók (Apple) és operációs rendszerek (Microsoft) figyelmen kívül hagyja őket, és bevezette saját kódokat. Ennek eredményeképpen megkaptuk örökölt négy különböző kategóriájú, két kódolás a Microsoft (DOS és Windows) és kódoló Apple Mac # „s (minden, persze, nem kompatibilisek egymással). Akiket érdekel a részleteket nézze meg a lapja A cirill karakterkészlet leves.

Szerencsére, ma nincs szükség, hogy részletesen ezen kódolási, mert RuNet túlélte csak kettő. Az első - a KOI8-R (KOI eszközt code-sharing és az információfeldolgozás, P megkülönbözteti az orosz kód táblázat ukrán, KOI8-U). KOI8-P elfogadnak Andrei Chernov a Relcom mint RFC 1489 és a következő:

KOI8-R a de facto szabvány minden webes szolgáltatások, kivéve a WWW. Különösen az összes e-mail és hírek Runet munkát ebben a kódolást. Ami a web, a helyzet bonyolultabb. Az a tény, hogy több mint 90% -a kliens számítógépek a hálózaton fut a Windows különböző verzióit. A Windows a saját kódolása orosz betűket, ami általában úgynevezett számos Windows 1251 vagy CP1251 kódlap:

Kétbájtos kódolás

Ne gondoljuk, hogy minden nemzeti kód byte, azaz a következő szabályokat: .. 1 szimbólum = 1 byte. Tény, hogy ez csak akkor igaz, az alfa (alfa-hang) írásrendszert. Másrészt, ott szótag írásról rendszerek, amelyekben az egyes szimbólumok nem egészséges, szótag, például indiai és távol syllabaries. Mivel a szótagok a nyelv sokkal több, mint az egyes hangok, senior 128 byte kód táblázata egyszerűen nem elég, hogy képviselje őket. Ez vezet az a tény, hogy egy ilyen írás kétbájtos kódolás (DBCS Double Byte karakterkészletek). Egy tipikus példa az ilyen kódolás a japán kódolás JIS, létezik több változatban. Ez magában foglalja a betűk és számok, mind a japán syllabaries (hiragana, katakana, és), a legfontosabb a kínai karaktereket. De a teljes megértése hieroglifás írásban Kínában, Japánban és Koreában, több ezer karakter, a nemzeti kódolás marad lehetetlen.

Hiányosságok a nemzeti kódolások

A látszólagos előnye a hagyományos kódtáblák végső képviselete rövidsége a szöveges információ. Azonban ez a rövidség jár számos hátránya van, szervesen kapcsolódik hozzá:

Ugyanebből az okból, ez gyakorlatilag lehetetlen kombinációja több kódtáblák egyetlen dokumentumban. Ez vezet a „tipográfiai szegénység” szöveges dokumentumok, mint egy hatalmas számos hasznos karakterek nem tartoznak ebbe a nemzeti karakter van dobják.

Kódtáblákat, összpontosított alfabetikus írás nem képes megoldani a problémát a kódoló karakterek és a Távol-Kelet Indiai szótagábécé. Többek között, ez azt jelenti, hogy majdnem a fele a világ népességének megfosztják attól a lehetőségtől, hogy a munka egy számítógép anyanyelvükön.

Amint számítógépek egyre erősebb, az internet - elágazó és operációs rendszerek - felhasználóbarát, ezeket a hiányosságokat is egyre komolyabb akadályt a teremtés természetes interfészek „ember-gép” és a „számítógép-hálózat”. Ki a helyzet került sor létrehozását a Unicode szabvány, amelyet a későbbiekben a következő oldalon.

Lehet, hogy volt. Majd egyszer. Mielőtt. Vagy akár csak a tervekben. De most nem.

Legvalószínűbb ő most költözött. Például a „Library” most itt → Könyvtár.

Ha nem találja, keressen a webes könyvtár. Site map vagy a keresési jobb felső.