előadás 06

karakterkódolás

nemzeti kódolás

meghatározzák

A modern számítógépek tárolják az összes információt bináris bájtok, azaz a. E. 8-bites egységek érték lehet 0 és 255 Annak érdekében, hogy tárolja a numerikus számítógép memóriájában, és a szöveget, meg kell határozni, mi a byte vagy bájt kódolni fogja minden egyes karakter, hogy előfordulhat a szövegben. Az ilyen levelezés közötti szimbólumok és a kódolás bájtok nevezik kódoló szimbólumok (karakterkészlet). Könnyen érthető, hogy egyrészt minden kódolás célja, hogy egy adott emberi nyelv (pontosabban egy adott script), másrészt, hogy az ilyen nyelvi kódolások lehet gondolni bőven. Ismerve az emberi természet, nem nehéz kitalálni, és hogy jön ki sokkal több, mint amire szüksége van. Persze, hogy mi történt: a legfejlettebb eddigi konverziós függvény könyvtár ICU (International Components for Unicode), az IBM támogatja a több mint 170 féle kódolás.

kódolás Latin

Nézzük meg a kódolás a fenti script, ami gyakran szembesül egy orosz fejlesztő, t. E. latin és cirill. A latin ma használ két alapvető kódolás: ASCII és EBCDIC. ASCII (American Standard Code for Information Interchange) - egy hét bites kód táblázat (karakter kódok 00 - 7F vagy 0-127 decimális), amely szabvánnyá vált a kis- és közepes méretű számítógépek, és ezért a szabványos web. Ez byte hexadecimális kódja 00 - 1F és 7F kódolására használjuk a kontroll (nem vizuális) karakterek és a többi karakter van kódolva az alábbiak szerint:

előadás 06

Kódolás EBCDIC (Extended Binary kódolt decimális Interchange Code) - Ez a nyolc bites kódolás (karakter kódok 00 - FF vagy 0-255 decimális) által elfogadott összes IBM számítógépek, de PC-n. Az ember nem említi, de a fejlesztés XML, mint az elsődleges szállítási formátumát adatait a hálózaton, akkor egyre inkább szembesülnek XML-fájlok keletkezett nagy gépek. Itt byte-kód 00 - 3F kódolás vezérlő karakterek, a többi pedig a következőek:

előadás 06

Cirill kódolások

Coding „A nem latin” alfabetikus írásrendszerek alábbiak szerint rendezték el. Ezek kódolt nyolcbites asztal (1 bájt = 1 szimbólum), azaz a szám 00 - .. FF (0-255 decimális) úgy, hogy az alsó fele a kódkönyv (kódok 00 - 7F vagy 0-127 decimális) a ASCII, és a nagyobbik fele (80 kód - FF vagy 128-255 tizedes) egy nemzeti karakterkészlet, azaz az orosz betűk az orosz kódkönyvben török ​​török, stb ilyen szervezet országos kódtáblákban lehetővé teszi, hogy megfelelően megjelenítse és feldolgozza a betűk, számok és .... központozás bármilyen számítógépen, függetlenül annak rendszer beállításait. Ez így van, különösen, rendezett és orosz karakterkészletek, hogy mi lehet a további vélik, csak az idősebb felét.

A történelem az orosz karakter - egy példa a zavart, ritka még a mi számítógép valóság. Szovjet szabványügyi szervezeteket, hogy a látogatók fogadására, számítógép-gyártók (Apple) és operációs rendszerek (Microsoft) figyelmen kívül hagyja őket, és bevezette saját kódokat. Ennek eredményeképpen megkaptuk örökölt négy különböző kategóriájú, két kódolás a Microsoft (DOS és Windows) és a kódolást, hogy az Apple Mac (összes természetesen nem kompatibilisek egymással). Akiket érdekel a részleteket nézze meg a lapja A cirill karakterkészlet leves.

Szerencsére, ma nincs szükség, hogy részletesen ezen kódolási, mert RuNet túlélte csak kettő. Az első - a KOI8-R (KOI eszközt code-sharing és az információfeldolgozás, P megkülönbözteti az orosz kód táblázat ukrán, KOI8-U). KOI8-P elfogadnak Andrei Chernov a Relcom mint RFC 1489 és a következő:

előadás 06

KOI8-R a de facto szabvány minden webes szolgáltatások, kivéve a WWW. Különösen az összes e-mail és hírek Runet munkát ebben a kódolást. Ami a web, a helyzet bonyolultabb. Az a tény, hogy több mint 90% -a kliens számítógépek a hálózaton fut a Windows különböző verzióit. A Windows a saját kódolása orosz betűket, ami általában úgynevezett számos Windows 1251 vagy CP1251 kódlap:

előadás 06

Kapcsolódó cikkek