Informatikai tankönyv az ügyvédek és közgazdászok számára - 1. fejezet

1.6. adatok és kódolás

Adatok - az információ dialektikus összetevője. Regisztrált jelek. Így a fizikai regisztrációs módszert bármelyike ​​lehet: a mechanikai mozgás fizikai objektumok, változó alakjuk vagy felületi minőségi paraméterek, a változás az elektromos, mágneses, optikai jellemzők, a kémiai összetétel, és (vagy) a természet a kémiai kötések, az állapotváltozás az elektronikus rendszer, és így tovább.

A regisztrációs módszer szerint az adatok tárolhatók és szállíthatók különböző típusú hordozókon. A legáltalánosabb adathordozó, bár nem a leginkább gazdaságos, papírnak tűnik. Papíron az adatokat a felület optikai jellemzőinek megváltoztatásával rögzítik. Az optikai tulajdonságok megváltozását (a felület reflexiós tényezőjének egy bizonyos hullámhossz-tartományban történő változását) szintén műanyag visszaverő bevonóanyag (CD-ROM) lézersugárral rögzített eszközökben használják. A hordozók a mágneses tulajdonságok megváltoztatásával mágneses szalagokat és lemezeket nevezhetnek. Az adatok rögzítése a hordozó felületi anyagainak kémiai összetételének megváltoztatásával széles körben használják a fényképezés során. Biokémiai szinten az élő természetben felhalmozódnak és továbbítják az adatokat.

Az adatok átalakítása a médiaváltás céljából a számítógépes tudomány egyik legfontosabb feladata. A számítástechnikai rendszerek költségeinek felépítésében az adatbevitel és az adatküldés eszközei, a médiával dolgoznak, a hardverek költségének felét teszik ki.

Adatműveletek

Az információs folyamat során az adatokat egy módszertől a másikba konvertálják. Az adatfeldolgozás számos különböző műveletet foglal magában. A tudományos és technológiai haladás, valamint az emberi társadalomban fennálló kapcsolatok általános bonyodalmaként az adatfeldolgozás munkaerőköltsége folyamatosan növekszik. Először is ez a termelés és a társadalom irányításának feltételeinek állandó bonyodalmának tudható be. A második tényező, amely a feldolgozott adatok mennyiségének általános növekedését is okozza, szintén összefügg a tudományos és technológiai haladással, nevezetesen az új adathordozók gyors megjelenésével és bevezetésével, a tárolással és az adatok továbbításával.

Az adatok lehetséges műveleteinek struktúrájában a következő főbbek különböztethetők meg:

• adatgyűjtés - adatgyűjtés annak biztosítása érdekében, hogy elegendő információ álljon rendelkezésre a döntéshozatalhoz;

• Az adatok formalizálása - különböző forrásokból származó adatok ugyanabba a formába való bevitele, hogy összehasonlíthatóvá tegyék őket, vagyis növeljék elérhetőségi szintjüket;

• Adatszűrés - "felesleges" adatok szűrése, amelyekben nincs szükség a döntéshozatalra; ugyanakkor csökkentenie kell a "zaj" szintjét, növelnie kell az adatok megbízhatóságát és megfelelőségét;

• Az adatok rendezése - a rendelési adatok egy adott jellemzőnek megfelelően a használhatóság érdekében; növeli az információk rendelkezésre állását;

• adatok csoportosítása - adatok kombinálása meghatározott tulajdonsággal a használhatóság növelése érdekében; növeli az információk rendelkezésre állását;

• Adattárolás - az adattárolás megszervezése kényelmes és könnyen hozzáférhető formában; az adattárolás gazdasági költségeinek csökkentése és az információs folyamat egészének megbízhatóságának növelése;

• adatvédelem - az adatvesztés, a többszörözés és az adatok módosítása elleni intézkedések;

• adatközlés - az információs folyamat távoli résztvevői közötti adatátvitel és adatátvitel (szállítás és kézbesítés); míg a számítástechnikai adatok forrását rendszerint a kiszolgálónak nevezik, és a fogyasztó - az ügyfél;

Adat bináris kódolása

Ugyanez a probléma az egyetemes kódolási eszközökkel igen sikeresen valósul meg a technológia, a tudomány és a kultúra bizonyos ágaiban. Például a matematikai kifejezések rögzítésére szolgáló rendszer, a távirati ábécé, a tengeri zászló ábécé, a vakok Braille rendszerét és még sok mást.

C O M P U T E R

Ábra. 1.8. Példák különböző kódolási rendszerekre

A rendszer létezik a számítástechnikában - ez az úgynevezett bináris kódolást, és alapjául az adatszolgáltatásról szekvencia csak két számjegy: 0 és 1 Ezek a jelek az úgynevezett bináris számjegy, angol - bináris számjegy, vagy rövidített formában bit (bit).

Egyetlen bitet két fogalom fogalmaz meg: 0 vagy 1 (igen vagy nem, fekete vagy fehér, igaz vagy hamis stb.). Ha a bitek számát kettőre növeljük, akkor négy különböző koncepció fejezhető ki:

Három bit képes nyolc különböző értéket kódolni:

000 001 010 011 100 101 110 111

A bináris kódolási rendszerben lévő számjegyek számának növelésével egyenként megduplázzuk a rendszerben kifejezhető értékek számát.

Egész számok és valós számok kódolása

Az egész számok 0-tól 255-ig történő kódolásához elegendő 8 bites bináris kód (8 bit).

Tizenhat bit lehetővé teszi, hogy 0-tól 65535-ig terjedő egész számokat kódoljon, és 24 bitre - több mint 16,5 millió különböző értékre.

Valódi számok kódolásához 80 bites kódolást használunk. Ebben az esetben a szám előbe van állítva egy normalizált formában.

123 456 789 = 0,123456789 · 109

A szám első részét mantissa-nak nevezik, a második pedig a jellemző. A 80 bitet többet a mantissza tárolására (a jel mellett) tárolják, és néhány rögzített számjegyet hozzárendelnek a jellemző tárolásához (jelzéssel is).

A szöveges adatok kódolása

Ha az ábécé minden egyes karakteréhez (pl. Sorozatszámhoz) hozzárendel egy adott egész számot, a bináris kóddal kódolhatja a szöveges adatokat is. Nyolc bináris számjegy elegendő 256 különböző karakter kódolásához. Ez elég, hogy kifejezze különböző kombinációi nyolc bit az összes karakter az angol és az orosz ábécé, mind a nagybetűs és kisbetűs és írásjelek, szimbólumok, alapvető aritmetikai és néhány speciális karakterek, mint például «§».

Technikailag ez nagyon egyszerűnek tűnik, de mindig elegendő szervezeti összetettség volt. A számítástechnika fejlődésének korai éveiben a szükséges szabványok hiányához kapcsolódtak, és a jelen pillanatban éppen ellenkezőleg, egyidejűleg fellépő és ellentmondásos normák bőségét okozzák. Annak érdekében, hogy az egész világ ugyanazt a szöveges adatot kódolja ugyanúgy, egyetlen kódolási táblára van szükségünk, és ez még mindig nem lehetséges a nemzeti ábécé szimbólumainak ellentmondásai, valamint a vállalati természet ellentmondásai miatt.

Az angol nyelv, amely lefoglalta a nemzetközi kommunikációs eszközök de facto rést, az ellentmondásokat már feloldották. Az American National Standard Institute (ANSI) bevezette az ASCII (American Standard Code for Information Interchange) kódolási rendszert. Az ASCII rendszerben két kódolási táblázat van rögzítve: alap és kiterjesztve. Az alaptábla 0-ról 127-re rögzíti a kódértékeket, és a kiterjesztett táblázat a 128-tól 255-ig terjedő számjegyű szimbólumokra vonatkozik.

Az alaptábla első 32 kódját, a nulla táblával kezdődően, a hardvergyártóknak adják (elsősorban a számítógépek és a nyomtatókészülékek gyártói). Ezen a területen található az úgynevezett ellenőrző kódokat, amelyek nem felelnek meg egyetlen nyelvi karakterek, és ennek megfelelően ezek a kódok nem szerepelnek sem a képernyőn, vagy a nyomtatási eszköz, de lehet szabályozni, hogy milyen a kimeneti termelt egyéb adatokat.

A 32-es kódtól a 127-es kódra indulva az angol ábécé szimbólumainak, az írásjelek, a számok, az aritmetikai műveletek és néhány kiegészítő szimbólum kódja kerül elhelyezésre. Az ASCII kódolás alapvető táblázata az 1.1 táblázatban található.

Informatikai tankönyv az ügyvédek és közgazdászok számára - 1. fejezet

Más országokban hasonló szövegadat-kódolási rendszereket fejlesztettek ki. Így például a Szovjetunióban ezen a területen a KOI-7 kódolási rendszere (információcsere kód, hét számjegy) működött. Azonban támogatása hardver és szoftver gyártók vezette az amerikai ASCII kódot, és nemzetközi szabványok, valamint a nemzeti kódolási rendszert kell „visszavonulás”, hogy a második, bővített része a kódolási rendszer, amely meghatározza ciőkődértéknek 128 255. A nem egységes szabvány ezen a területen vezetett sokaságának egyidejű kódolások. Csak Oroszországban adhat meg három érvényes kódolási szabványt és két másik elavultat.

Például a karakterkódolást az orosz nyelv, az úgynevezett Windows 1251-ben vezették be „kívülről» - Microsoft most, de mivel az elterjedt operációs rendszerek és egyéb termékek a cég oroszországi, ő mélyen gyökerező és széles körben elérhető (1.2 táblázat ). Ez a kódolás a Windows platformon futó legtöbb helyi számítógépen használható. De facto, a világhálón az orosz szektorban vált szabványossá.

Informatikai tankönyv az ügyvédek és közgazdászok számára - 1. fejezet

Egy másik gyakori kódolási hívják KOI-8 (Code for Information Interchange, nyolc számjegyű) - eredete nyúlik vissza a keresetet a Tanács a Kölcsönös Gazdasági Segítség kelet-európai országok (1.3 táblázat). E kódolás alapján a KOI8-R (orosz) és KOI8-U (ukrán) kódolások működnek. Napjainkban a KOI8-P kódolást széles körben használják számítógépes hálózatokban Oroszországban és az orosz internetszektor egyes szolgáltatásaiban. Különösen, Oroszországban de facto szabvány az e-mail üzenetek és telekonferenciák.

Informatikai tankönyv az ügyvédek és közgazdászok számára - 1. fejezet

A nemzetközi szabvány, amelyben az orosz ábécé karakterkódolását biztosítják, Nemzetközi Standard Szervezetnek (ISO) nevezik. A gyakorlatban ezt a kódolást ritkán használják (1.4. Táblázat).

Informatikai tankönyv az ügyvédek és közgazdászok számára - 1. fejezet

Az MS-DOS operációs rendszerekben futó számítógépeken két további kódolás (GOST kódolás és GOST-alternatív kódolás) működhet. Az elsőt a személyi számítógépek megjelenésének korai éveiben elavultnak tekintették, de az utóbbi még ma is használatos (lásd az 1.5. Táblázatot).

Informatikai tankönyv az ügyvédek és közgazdászok számára - 1. fejezet

Az Oroszországban működő szöveges adatkódoló rendszerek bőségével kapcsolatban a probléma a rendszerközi adatátalakítás problémája - ez a számítógépes tudomány egyik leggyakoribb feladata.

Univerzális szövegkódolási rendszer

Ha elemezzük a szövegadatok kódolására szolgáló egyetlen rendszer létrehozásával kapcsolatos szervezési nehézségeket, akkor azt a következtetést vonhatjuk le, hogy ezeket korlátozott számú kód (256) okozza. Ugyanakkor nyilvánvaló, hogy ha például a karaktereket nem nyolcbites bináris számok kódolják, hanem nagy számjegyű számokkal, akkor a lehetséges kódértékek tartománya sokkal nagyobb lesz. Egy ilyen rendszer, amely 16 bites karakterkódoláson alapul, univerzálisnak nevezik - UNICODE. Tizenhat bit lehetővé teszi, hogy egyedi kódokat adjon meg 65.536 karakterből - ez a mező elég ahhoz, hogy egy táblázatban a legtöbb bolygó nyelvének szimbólumát helyezze el.

Annak ellenére, hogy a triviális bizonyíték egy ilyen megközelítés egy egyszerű mechanikai kapcsolót ez a rendszer hosszú ideig akadályozta az elégtelen források számítógépes berendezések (UNICODE kódolási rendszer minden szöveges dokumentumokat automatikusan vált kétszer olyan hosszú). Az 1990-es évek második felében a technikai eszközök elérik a szükséges források szintjét, és ma látjuk a dokumentumok és a szoftverek fokozatos átjutását egy univerzális kódolási rendszerbe. Az egyes felhasználók számára ez azzal a gonddal járult hozzá, hogy a különböző kódolási rendszerekben végrehajtott dokumentumok összeegyeztethetők szoftverekkel, de ezt az átmeneti időszak nehézségeinek kell tekinteni.

A grafikai adatok kódolása

Ha figyelembe vesszük nagyító segítségével fekete-fehér képre, nyomtatott újságot vagy könyvet, akkor láthatjuk, hogy ez áll a kis pontok esetében, ahol a jellegzetes mintázatot, vagyis a raszteres (ábra. 1.9).

Ábra. 1.9. A raszter egy grafikus információ kódolásának módja,

régóta elfogadták a nyomtatást

Mivel a lineáris koordinátákat és az egyedi tulajdonságok minden pontjának (fényerő) fejezhető ki egész, azt mondhatjuk, hogy a bitmap kódolás lehetővé teszi a használatát a bináris kódot, hogy képviselje a képadatok. A közös képviselet ma úgy fekete-fehér illusztrációk együtt pont 256 szürke árnyalat, és így kódolni fénysűrűségével bármely pontján rendszerint elegendő a nyolc bites bináris szám.

A színes grafika kódolásához az önkényes szín főkomponensek bomlási elvét alkalmazzák. Ezek az elemek három primer színt használnak: piros (piros, R), zöld (zöld, g) és kék (kék, b). A gyakorlatban (bár elméletileg nem teljesen így van), az emberi szem által látható színt a három primer szín mechanikus keverésével lehet elérni. Az ilyen kódolási rendszert az elsődleges színek nevének első betűjével az RGB rendszernek hívják.

Ha 256 fő (nyolc bináris számjegy) kódot használ a főkomponensek fényességének kódolásához, amint az a féltónusú fekete-fehér képek esetében szokásos, 24 pontot kell fogyasztania egy pont színének kódolásához. Ebben az esetben a kódolási rendszer egyértelműen meghatározza a 16,5 millió különböző színt, ami valójában közel áll az emberi szem érzékenységéhez. A színes grafika 24 bittel történő ábrázolásának módját teljes színnek (True Color) nevezik.

Az elsődleges színek mindegyike további színnel társítható, vagyis egy szín, amely a fő színt fehérre egészíti ki. Könnyű észrevenni, hogy az elsődleges színek bármelyikének esetében a további szín lesz a többi primer színpár összege. Ennek megfelelően további színek: kék (ciánkék, C), bíborvörös (bíbor, m) és sárga (sárga, Y). Az elv bármilyen színű szétbontás alkotóelemét lehet használni nem csak az elsődleges színek, hanem más, hogy van, bármilyen szín ábrázolható összegeként cián, bíbor és sárga komponenst. Ezt a színkódolási módszert poligrafikusan alkalmazzák, de a nyomtatás során a negyedik festéket is használják - fekete (fekete, k). Ezért ez a kódrendszer jelöljük négy betű CMYK (fekete betűvel jelöljük K, a B betű már foglalt kék), és képviselik a színes grafikus ebben a rendszerben kell 32 bit. Ezt az üzemmódot teljes színnek (True Color) is nevezik.

Ha csökkenteni fogja az egyes pontok színének kódolásához használt bitek számát, akkor csökkentheti az adatok mennyiségét, de a kódolt színek tartománya jelentősen csökken. A színes grafika 16 bites bináris számokkal való kódolását High Color módnak nevezik.

Ha színadatokat kódol a nyolc adatbittel, csak 256 színt lehet továbbítani. Ezt a színkódolási módot indexnek nevezzük. A név jelentése az, hogy mivel a 256 értékek elég közvetíteni a teljes színtartomány az emberi szem számára, a kód minden egyes pixel fejezi nem a szín önmagában, hanem csak a számot (index) egy bizonyos look-up table nevű paletta. Természetesen ezt a palettát kell alkalmazni a képadatok - enélkül nem tudja használni a módszereket reprodukciója az információkat a képernyőn, vagy papíron (azaz a használatát, természetesen lehetséges, ám a hiányos adatok kapott információ nem lesz megfelelő: a levelek a fákon lehet piros, és az ég zöld).

Kódolás hang információ

A legfrissebb technikai megoldások és módszerek a hangtechnikával való együttműködésre a számítógépes technikára kerültek. Ezenkívül - a numerikus, szöveges és grafikus adatokkal ellentétben - a hangfelvételek nem rendelkeztek egyformán hosszú és bizonyított kódolási előzményekkel. Ennek eredményeképpen a bináris kóddal rendelkező audioinformáció kódolásának módszerei távolról sem szabványosíthatók. Számos vállalat alakította ki saját vállalati szabványait.