KompjûtersYnformaasjetechnology

Kodearring "Unicode": karakter taalkodearjen standert

Elke Ynternet brûker yn in besykjen ta it oprjochtsjen fan ien of it oare fan syn funksje op syn minst ienris seach op it skerm skreaun yn it Latyn letters it wurd "Unicode." Wat is it, dan sil leare troch it lêzen fan dit artikel.

definysje

Kodearring "Unicode" - karakter kodearring standert. It waard foarsteld troch Unicode Inc. non-profit organisaasje yn 1991. De standert is ûntwurpen om te bringen byinoar it grutste mooglike oantal ferskillende soarten tekens yn in dokumint. Page, dy't oprjochte waard op basis dêrfan, kinne befetsje brieven en personaazjes út ferskillende talen (fan Russysk oant Korean) en wiskundige buorden. Yn dit gefal, al fan 'e tekens yn it karakter set wurde werjûn sûnder problemen.

De redenen foar it ta stân kommen fan

Once upon a time, lang foar't de ferskining fan ien systeem "Unicode" kodearring is selektearre basearre op de foarkar fan de skriuwer fan it dokumint. Om dy reden, faak te lêzen in dokumint, wie it nedich om te brûken ferskillende tabellen. Soms is it nedich om te dwaan ferskate kearen, dy't sterk complicates it libben fan de gemiddelde brûker. Sa't al neamd, de oplossing foar dat probleem yn 1991 waard útnoege om Unicode Inc. in non-profit organisaasje te bieden in nij soarte fan karakter kodearring. It wie ûntwurpen om te kombinearje ferâldere en in ferskaat oan noarmen. "Unicode" - in kodearring dy't ozvolila berikken fan de unthinkable op it stuit: te meitsjen in ynstrumint dat stipet in grut oantal tekens. It resultaat overtrof soad ferwachtings - der wiene dokuminten tagelyk befettet sawol it Ingelsk en Russysk tekst, Latyn, en wiskundige uterings.

Mar de oprjochting fan in ienriedigens taalkodearjen foarôfgien troch de needsaak om te lossen fan in tal problemen dat binne ûntstien as gefolch fan it grutte ferskaat oan noarmen al besteande op dat stuit. De meast foarkommende fan harren:

  • Elvish skriuwen, of "gibberish";
  • de beheinings fan it karakter set;
  • probleem nederlanders codings;
  • font dûbel.

Lyts histoaryske excursus

Yntinke dat de hiem 80th. Kompjûterapparatuer is net sa gewoan en hat in foarm oars as hjoed. Wylst elk OS is unyk en subtyl elke leafhawwer syn spesifike behoeften. Need foar it útwikseljen fan ynformaasje wurdt omset yn in ekstra dizzee alles. Besykje te lêzen in dokumint makke troch in oar bestjoeringssysteem, faak lit in frjemde set fan personaazjes, en it spultsje begjint mei de kodearring. It docht net altyd doch it gau, en soms nedich dokumint koe net iepene yn seis moanne, en sels letter. Minsken dy't faak ynformaasje útwikselje, skeppe foar harsels in omsetting tafel. En dan wurkje oan harren ferriedt in nijsgjirrich detail: it ferlet te meitsjen se yn twa rjochtingen, "út myn yn dyn" hinne en wer. Meitsje banale omkearing Computing masine kin net, hwent it yn 'e rjochter kolom fan de boarne, en de linker - it resultaat, mar net oarsom. As jo sjogge de needsaak om te brûke gjin spesjale tekens yn it dokumint, hja moasten taheakke wurde earst, en dan de oare, en út te lizzen oan 'e partner wat er moat te dwaan oan dizze tekens net ta in "gibberish." En lit ús net ferjitte dat der foar elke kodearring moast ûntwikkeljen of útfiering fan harren eigen lettertypen, wat late ta de oprjochting fan in grut oantal duplikaten yn de OS.

Yntinke fierder dat de lettertypen op 'e side, dan sille sjen 10 stikjes identike Times New Roman mei in lyts briefke: want UTF-8, UTF-16, ANSI, UCS- 2. No jim begripe dat de ûntwikkeling fan de universele noarmen wie ymperatyf?

"De oprjochters fan 'e makkers fan"

De oarsprong fan 'e skepping fan unykoade te finen yn 1987 doe't Dzho Bekker út Xerox, tegearre mei Lee Collins en Mark Davis út de Apple begûn ûndersyk op it mêd fan praktyske skeppen fan in universele tekenset. Yn augustus 1988, Dzho Bekker publisearre in ûntwerp foarstel foar de oprjochting fan 16-bit meartalige ynternasjonaal taalkodearjen systeem.

In pear moannen letter Unicode wurkgroep waard útwreide mei Ken Whistler en Mike Kernegana út RLG, Glenn Rayt fan Sun Microsystems en ferskate oare spesjalisten, it mooglik meitsjen fan it ôfmeitsjen fan it wurk oan 'e foarriedige foarming fan in mienskiplike taalkodearjen standert.

algemiene beskriuwing

De Unicode basearre op it konsept fan it symboal. Under dizze definysje ferwiist nei in abstrakt ferskynsel dat bestiet yn in bepaalde foarm fan skriuwen en realisearre troch in grapheme (harren "portretten"). Elts karakter wurdt jûn yn it "Unicode" unike koade dy't ta in bepaalde ienheid standert. Eg grapheme B is ek yn it Ingelsk en Russysk alfabetten, mar it komt oerien mei unykoade 2 ferskillende tekens. Se binne ûnder foarbehâld fan bekearing ta it lytse letters, T. E., Eltse wêrfan beskriuwt de toets databank, in set fan eigenskippen en de folsleine namme.

Foardielen fan Unicode

Ut oare tiidgenoaten Kodearring "UNICODE" Der is in enoarme foarried fan tekens foar "fersifering" karakters. It feit dat syn foargongers hienen 8 bits, dat wurdt stipe troch 28 karakters, mar it nije ûntwerp wie al 216 karakters, dat wie in gigantyske stap foarút. Dat tastien Encode hast alle besteande en mienskiplike alfabetten.

Mei de komst fan "Unicode" net langer nedich om te brûken op in omsetting tafel: as ien standert is krekt ûntkenden de needsaak foar harren. Ek sy hawwe sonk yn it ferjit, en "gibberish" - in inkele standert makke se ûnmooglik, likegoed as regel út de needsaak om te meitsjen dûbele lettertypen.

ûntwikkeling fan Unicode

Fansels, de fuortgong is net yn plak, en sûnt de earste presintaasje gien is foar 25 jier. Lykwols, tekenset "unicode" stiiffêst hâldt syn posysje yn 'e wrâld. Op alderlei manieren dit is mooglik makke tanksij it feit dat it wurden is maklik om te fieren en is ferspraat, se werkend ûntwikkelers fan bedriuwseigen (betelle) en iepen boarne software.

Wy moatte net leauwe dat hjoed wy sjogge deselde koade "Unicode" as de kwart fan in ieu lyn. Op it stuit, dat waard ferfongen troch ferzje 5.h.h, en it oantal ynmekoar setten symboalen tanommen oant 231. Op de mooglikheid fan it brûken fan in gruttere marzje Marks wegeren om noch behâlden stipe foar unykoade-16 (kodearring, dêr't de maksimale bedrach fan harren beheind nûmer 216). Sûnt de oprjochting en omheech nei ferzje 2.0.0 "De Unicode Standert" tanommen is it oantal karakters dat it opnomd hast yn 2 kear. kânsen en bliuwende groei yn de kommende jierren. Foar ferzje 4.0.0 al is der in ferlet om te fergrutsjen de standert sels, en dat waard dien. As gefolch, "Unicode" hat fûn de foarm wêryn wy kenne it hjoed.

Wat oars is yn Unicode?

Neist de grutte, konstant fernijd mei it oantal tekens, "Unicode" -Encoding tekst ynformaasje is in oare brûkber trek. Dit is de saneamde normalization. Yn stee fan rôlje troch it hiele dokumint karakter troch karakter, en ferfangen fan de ikoanen fan de korrespondinsje tafel, brûk ien fan de besteande normalization algoritmen. Wat is it?

Yn stee fan fergrieme de middels fan de kompjûter op in regelmjittige kontrôle dwaan fan itselde karakter, dat kin ek yn ferskillende alfabetten, mei help fan in spesjale algoritme. It makket it mooglik om in ferlykbere symbols aparte kolom Lookup tafel en jilde al tsjin har, net hieltyd wer te op'e nij alle gegevens.

Sokke algoritmen wurde ûntwikkele en útfierd wurde fjouwer. Elts konverzje fynt plak troch strikt beskate prinsipe, oars út it oare, sa te neam gjin ien dêrfan is net de meast effisjint mooglik. Elke ûntwurpen foar spesifike behoeften, waard ynsletten en brûkt sukses.

fersprieding standard

Yn de 25 jier fan har skiednis kodearring "UNICODE" Ik haw krige nei alle gedachten it meast wiidferspraat yn 'e wrâld. Under dizze standert wurde oanpast ta programma 's en web-siden. De breedte fan tapassing kinne derop wize dat unykoade no brûkt wurdt troch mear as 60% fan 'e Internet middels.

No, jo witte, doe't de "Unicode" standert ferskynde. Wat it is, jim ek kenne en kinne wurdearje de folsleine betsjutting fan de útfining, makke troch in groep saakkundigen Unicode Inc. Mear as 25 jier lyn.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 fy.birmiss.com. Theme powered by WordPress.