Komputeran, Bernameyên
UTF-8 - encoding character
Unicode piştgiriya hema hema hemû komên character heyî. The best form kodkirina set character Unicode UTF-8 hilbijêrin e. Ev piştgiriya lihevhatina bi ASCII, berxwedana ji bo berovajîkirina ji welat, ji bo berevpêşbirina û rehet ya muamelekirina. Lê tiştên pêşîn.
formê bi kar binî
Computers kar ne tenê wekî hejmara tiştên razber bîrkariyê de, her wiha li combinations ji yekîneyên ji depo û hilgirtina welat sabît-size - byte û peyvên 32-bit. standard Kodkirina divê ev nav account gava diyarker çawa ji niha take hejmara characters.
Di sîstemên komputerê, ji hejmarên ku di hucreyên bîra 8 bits (1 byte), 16 an jî 32 bits veşartin. Her form a kodkirina Unicode, ku Bûyer hucreyên bîra Integerek destdayî ji bo sembola taybetî e terîf dike. Di standard in, sê awayên cuda yên binî characters Unicode 8, 16 û 32-bit blokên hene. Li gorî vê, ew wek UTF-8, UTF-16 û UTF-32 tê zanîn. Navê UTF de radiweste, ji bo Unicode Format Veguherîna. Her yek ji sê awayên rêyên rêdanê e wekhev temsîla character Unicode avantajê li sepanên cuda.
şîfrekirina giştî ya daneyan dikarin bên bikaranîn ku temsîla hemû tîpan di standard Unicode. Bi vî awayî, ew ji bo sedemên cuda bi temamî ji bo çareseriyê tên, bi bikaranîna awayên cuda yên binî. Her yek ji kodên dudilî dikarin nav yek ji her du yên din, bêyî windakirina Daneyên ku bê veguhartin.
prensîba nenalozheniya
Her yek ji kodkirin formên Unicode li view of pênaskirin ne bi qismî bi pêşxistin. Ji bo nimûne, Windows-932 esas characters ji yek an du bytes ji code. Dirêjahîya cihekê girêdayî byte yekem, da ku nirxên byte sereke di rêze du-byte û disjoint byte yek. Lê belê, bi nirxê a byte yek û dirêj cihekê byte dikarin bikirina. Ev tê wê wateyê ji bo nimûne ku lêgerîn character D (code 44) dikare bibîne ku ev xeletî ku ketin hundirê para duyem ya cihekê du-byte character "D" (Koda 84 44). Bikin, ji bo ku sequence agadar, di programê de divê hesabê bytes berê bigire.
Rewşa aloz û tevlihev e, eger maça sereke û dirêj bytes. Ev tê wê wateyê ku ji bo ku jê nediyarbûna wê dîtinSocket berevajî berî ku ew bigihên destpêkê de yên di nivîsê de an de cihekê code yekta be. Ev ne tenê bêkêr e, lê ji şaşiyên gengaz parastî ne, ji ber ku bi tenê yek byte neheqî li text full unreadable bûye.
converter Format Unicode Cam vê pirsgirêkê ji ber ku nirxa ya sereke, qaşo, û yekîneyeke yek ji embar in agahiyên heman ne. Ev piştrast dike ku hemû Unicode ji bo lêgerînê û berhevdana, qet dayîna encamên Ancax, ji ber ku bi tesadufî li deverên cûda yên koda ku karaktera. Ev rastiyeke ku ev awayên ji binî ve bişopîne nenalozheniya prensîba, wan ji yên din encodings multi-byte Asyaya Rojhilat cihź.
mijareke din a nonintersection encodings Unicode e ku her yek karektera a sînor bi awayekî zelal destnîşan kirin. Ev tasfiye dike ku pêwîstiya bi bigerim hejmara bêdem ji sembolên berê. Ev taybetî carna encoding self-clocking kir. Berovajîkirina ji yekîneyên code dê yek berovajîkirina ji tenê yek karektera nasandin, û lîstikvanên derdora hê jî neguherîne in. Di 8-bit converter format, eger xalên pointer ji byte, dest bi 10xxxxxx (li code) bo peydakirina destpêka sembola ji bo yek ji sê guherîna ku berevajî ne pêwîst e.
hevgirtî
Unicode Consortium bi temamî piştgiriya hemû 3 formên encodings. Ev girîng e ku li hember UTF-8 û Unicode, wek hemû formatên converter ne - wekhev formên derbasdar ji bighîjne ya standard character-encoding Unicode.
Byte-orientation
To temsîl UTF-32 tîpan dê yekîneyeke code 32-bit, ku bi koda Unicode û qewimîna divê. UTF-16 - yek ji du yekîneyên 16-bit. A UTF-8 bi kar tîne ji bo 4 bytes.
kodkirina UTF-8 hatiye dîzaynkirin ku ji lihevhatî be bi sîstemên-based ASCII-byte nêrîn. Piraniya nivîsbariyê yên heyî û pratîkê de teknolojiya enformasyonê de ji bo demeke dirêj li ser temsîliyeta characters li cihekê bytes wergirtine. protokol Multiple girêdayî misêwa ji encoding ASCII û tîne yan jî neçûna ser tîpan kontrol taybet. A awayek hêsan guncîna rewşên Unicode dikare bi bikaranîna kodên 8-bit ji bo nunertiya characters Unicode, tu character ASCII cezayeke an kesayetîyek kontrolê. Ji bo vê yekê, û ew UTF-8 hilbijêrin e.
length variable
UTF-8 - binî yên length variable, ku ji yekîneyên depo 8-bit, li bits jorîn a ku mirov ji bo ku beşek ji Bûyer her byte şexsî ye. Yek range ji nirxên middetê ku ji bo hêmana yekemîn ya cihekê tevgerê, yê din - ji bo next. Ev encoding disjointness pêşkêş dike.
ASCII
Kodên ASCII kodkirina UTF-8 bi temamî piştgiriya (0x00-0x7F). Ev tê wateya ku characters Unicode U + 0000-U + 007F bi nav single byte 0x00-0x7F UTF-8 bîya û bi vî awayî yektirí ji ASCII bibe. Herweha, da ku nediyarî, nirxa 0x00-0x7F bêtir di temsîla byte yek ji characters Unicode bi kar anîn ne. Vekodkirina sembolên neideograficheskih din ji ASCII, bikaranîna cihekê du bytes. Sembol dewerên U + 0800-U + FFFF bi destê sê bytes temsîlkirin, û kodên din bi zêdetir ji U + FFFF pêwîstî bi çar bytes.
qada sepanê
kodkirina UTF-8 caran tercîha di protokola IP-dayîn, û weku eweyi.
XML bûye yekem standard bi piştgiriya tam ji bo UTF-8 hilbijêrin. rêxistinên Standardî jî ev pêşniyar dikin. pirsgirêka Support navnîşana URL e ku cuda ji ASCII-characters, dema ku W3C konsorsiyuma û koma engineering IETF bi peymana li ser ji kodên hemû hat çareser kirin navnîşanên URL tenê li UTF-8.
Compatibility bi ASCII asankariyê bo derbasbûna bi software nû. Bi UTF-8 dixebite herî edîtorên text, di nav de JEdit, EmacsGenericName, BBEdit, Pier, û "Notepad" pergala xebitandina Windows'ê. No form din yên kodkirina Unicode bi vî rengî piştgirî ya tool a pesnê xwe bide.
Nikarī sûd ew e ku, ji a Bûyer bytes pêk tê. Bi UTF-8 string hêsan e, ji bo xebatê li C û zimanên din bernameyên. Ev bi tenê form of encoding e, fermana nade labels ne hewce bytes BOM an jî daxuyaniya encoding li XML.
self-hevdemkirinê
Di nava derdoreke ku ji zimên sembolên 8-bit ya muamelekirina rêje din jî Komên tîpan multi-byte, UTF-8 de xwedî avantajên jêr e:
- The yekem cihekê code byte de agahiyên li ser dirêjahiya. Ev li ser serkeftina lêgerîn direct zêde dike.
- Hêsakirî peydakirina destpêka sembola wek byte hereketê sînorkirî ji bo range sabit ji nirx e.
- No nirxên intersection byte.
Compare feydeyên
kodkirina UTF-8 kompakt e. Lê dema ku ji bo kodkirina tîpan Asyaya Rojhilat bikaranîn (Chinese, Japonî, Koreyî, nivîs Chinese bikaranîna nîşanên) tê bikaranîn Rêzkirinên li 3-byte. Bi UTF-8 hilbijêrin tiştîva ji formên din yên binî speed processing e. A xetên gaven binary encama heman wek binary gaven Unicode hildiberîne.
Proje li encoding character
Proje li encoding character birîtî ye form û metoda ji bo yek byte yekîneyên code location sembolên encoding. Ji bo destnîşankirina xaxê Kodkirina standard Unicode bi kar an mark byte order destpêkê (BOM, Byte order mark) pêşkêş dike.
Dema ku BOM li UTF-8 tag taybetiyê bi tenê bi referansa li ser karanîna formên kar binī bi sînor. Pirsgirêkên di diyarkirina endian UTF-8 heye, wek size beşa encoding xwe yek byte e. Bikaranîna di BOM ji bo vê formê ji kodên ye, ne pêwîst û ne jî tê pêşniyarkirin. BOM dikarin di text pêk ji bo ku ji yên din codings bikaranîna mark byte order an îmzayan a ji bo UTF-8 hilbijêrin ku bê veguhartin. Is a Bûyer 3 byte EF BB 16 16 Kleber 16.
How to set kodkirina UTF-8
The Html bi kar binî UTF-8 bi koda jêr sazkirin:
ser
Meta http-equiv = "Content-Type" content = "text / html; charset UTF-8 =" ˃
Di PHP UTF-8 hilbijêrin bikaranîna function header () di destpêka vê pelê piştî danîna derketinê nirxê asta ku danîn:
˂? Php
error_reporting (-1);
header ( "Content-Type: text / html; charset = UTF-8 '');
To connect to a nav HTMLê da heye MySQL UTF-8 hilbijêrin ku danîn:
˂? Php
mysql_set_charset ( 'utf8');
Kodkirina CSS-file e characters UTF-8 ya ku weke li pey xwe dişinî:
PECharsetRuleNotString "UTF-8";
Gava ku tu xilas pelan de ji hemû cureyên hilbijêre UTF-8 hilbijêrin bê BOM, nexwe di malperê de xebata wê ne. Ji bo vê jî li DreamWeave divê ji bo bijartina babete menu "Guhertinên - Page Properties - Title / Kodkirina" ji bo guhertina kodkirina UTF-8. Li pey rûpelê, jê deqa check ji "sîgnatûrek Connect Unicode (BOM)» bike û bisepîne guherandinan. Ger tu text li ser rûpel an jî di nav HTMLê da heye formeke din a ji kodên tetbîq kirin, ev ji nû ve binivîse an re-encode pêwîst e. Gava ku tu bi têgînên ku bi berdewamî kar, wusa bikin ku bi kar Guherker u.
Tu jî dikare pelî di kodkirina UTF-8 li "Notepad" yên Windows xilas bike. Piştî hilbijartina babete menu "File - Save As ..." Ji bo sazkirina form pêwîst kodkirina û Tomarkirina pela li UTF-8.
Di editor text Notepad ++, eger din ji UTF-8 set, bi rêya babete menu bi "Convert bi UTF-8 bêyî BOM» guhertina karakterê û xilas li UTF-8.
e, tu alternatîfek heye
Di çarçoveya globalbûna, ku sînorên siyasî û zimanî Zîlanê bi, komên ku karaktera ku xwedî taybetmendiyên herêmî, ji bikaranîna kêm in. Unicode a set karektera yek ku hemû localizations piştgiriya e. A UTF-8 - mînaka piyadekirina ji Unicode, ew e ku:
- Ev piştgirî cur be cur ên Amûrên, di nav de rêde bi kodkirina ASCII;
- Ev daneyên berovajîkirina li hemberî e;
- sade û di tedawiya bitesîr;
- platform serbixwe ye.
Bi gavavêtina ji bo nîqaşên ku UTF-8 li ser çi form of encoding an character set baştir e, ew bêwate dibe.
Similar articles
Trending Now