Pakkumised (Unicode'i plokk) - Specials (Unicode block)

Vikipeedia, Vaba Entsüklopeedia

Pin
Send
Share
Send

Eripakkumised
VahemikU + FFF0..U + FFFF
(16 koodipunkti)
LennukBMP
SkriptidSage
Määratud5 koodipunkti
Kasutamata9 reserveeritud koodipunkti
2 mittemärki
Unicode'i versiooni ajalugu
1.0.01 (+1)
2.12 (+1)
3.05 (+3)
Märge: [1][2]

Eripakkumised on lühike Unicode ploki eraldamine Põhiline mitmekeelne lennuk, kell U + FFF0 – FFFF. Nendest 16 koodipunktist on Unicode 3.0-st alates määratud viis:

  • U + FFF9 Liinidevaheline annotatsiooniankur, tähistab algust kommenteeritud tekst
  • U + FFFA Liinidevaheline annotatsioonide eraldaja, tähistab märkide märkide algust
  • U + FFFB Liinidevaheline annotatsioonilõpetaja, tähistab annotatsiooniploki lõppu
  • U + FFFC OBJEKTI ASENDAMISE TUNNUS, kohatäide tekstis mõne muu määratlemata objekti jaoks, näiteks a liitdokument.
  • U + FFFD ASENDUSKARAKTER kasutatakse tundmatu, tundmatu või esindamatu märgi asendamiseks
  • U + FFFE <noncharacter-FFFE> mitte tegelane.
  • U + FFFF <noncharacter-FFFF> mitte tegelane.

FFFE ja FFFF pole tavalises mõttes määramata, kuid garanteeritud, et need pole üldse Unicode'i tähemärgid. Neid saab kasutada teksti kodeerimisskeemi äraarvamiseks, kuna mis tahes neid sisaldav tekst pole definitsiooni järgi õigesti kodeeritud Unicode'i tekst. Unicode'i oma U + FEFF Baidi tellimusmärk märgi saab sisestada Unicode'i teksti algusesse, et sellest märku anda endianism: programm, mis loeb sellist teksti ja kohtab 0xFFFE-d, teaks siis, et peaks kõigi järgnevate tähemärkide baitide järjekorra vahetama.

Selle plokinimi Unicode 1.0-s oli Eriline.[3]

Asendusmärk

Asendusmärk

The asendustegelane (Sageli must teemant valge küsimärgi või tühja ruudukujulise kastiga) on sümbol, mis on leitud Unicode standard koodipunktis U + FFFD Eripakkumised tabel. Seda kasutatakse probleemide näitamiseks, kui süsteem ei suuda andmevoogu õigeks sümboliks muuta. Tavaliselt nähakse seda siis, kui andmed on valed ja ei vasta ühele tähemärgile:

Mõelgem saksakeelset sõna sisaldavale tekstifailile für (mis tähendab "eest") ISO-8859-1 kodeerimine (0x66 0xFC 0x72). See fail on nüüd avatud tekstiredaktoriga, mis eeldab, et sisend on UTF-8. Esimene ja viimane bait on kehtivad ASCII UTF-8 kodeeringud, kuid keskmine bait (0xFC) ei ole UTF-8-s kehtiv bait. Seetõttu võiks tekstiredaktor selle baidi asendada tähemärgi asendajaga, et saada kehtiv Unicode string koodipunktid. Kogu string kuvatakse nüüd järgmiselt: "f r".

Halvasti rakendatud tekstiredaktor võib salvestada asenduse vormis UTF-8; tekstifaili andmed näevad siis välja järgmised: 0x66 0xEF 0xBF 0xBD 0x72, mida kuvatakse standardis ISO-8859-1 kui "f�r" (seda nimetatakse mojibake). Kuna asendamine on kõigi vigade puhul sama, muudab see algse märgi taastamise võimatuks. Parem (kuid raskemini rakendatav) kujundus on säilitada algsed baidid, sealhulgas viga, ja teisendada asendamiseks ainult siis, kui väljapanek teksti. See võimaldab tekstiredaktoril salvestada algse baitide järjestuse, näidates siiski kasutajale veaindikaatorit.

Korraga kasutati asendusmärki sageli siis, kui selle tähemärgi jaoks polnud fondis glüüfi saadaval. Kuid enamik tänapäevaseid tekstiedastussüsteeme kasutab selle asemel fonde .notdef märk, mis enamasti on kastis tühi kast (või "?")[4]), mida mõnikord nimetataksetofu"(see brauser kuvab ). Selle sümboli jaoks pole Unicode'i koodipunkti.

Seega näeb asendusmärki nüüd ainult kodeerimisvigade puhul, näiteks sobimatu UTF-8. Mõni tarkvara üritab seda varjata, teisendades sobimatu UTF-8 baidid tähtedega Windows-1252 (kuna see on nende vigade kõige tõenäolisem allikas), nii et asendusmärki ei nähta kunagi.

Unicode'i diagramm

Eripakkumised[1][2][3]
Ametlik Unicode konsortsiumi kooditabel (PDF)
 0123456789ABCDEF
U + FFFx IA
A
IA
S
IA
T
Märkused
1.^ Alates Unicode'i versioonist 13.0
2.^ Hallid alad tähistavad määramata koodipunkte
3.^ Mustad alad tähistavad mittemärke (koodipunktid, mida Unicode'i standardis ei tagata kunagi kodeeritud märkidena)

Ajalugu

Järgmistes Unicode'iga seotud dokumentides registreeritakse plokis Specials konkreetsete märkide määratlemise eesmärk ja protsess:

VersioonLõplikud koodipunktid[a]KrahvUTC IDL2 IDWG2 IDDokument
1.0.0U + FFFD1(määratakse kindlaks hiljem)
U + FFFE..FFFF2(määratakse kindlaks hiljem)
L2 / 01-295RMoore, Lisa (2001-11-06), "Motion 88-M2", Protokoll UTC / L2 kohtumisest nr 88
L2 / 01-355N2369 (html, doc)Davis, Mark (2001-09-26), Taotlus lubada FFFF, FFFE UTF-8-s ISO / IEC 10646 tekstis
L2 / 02-154N2403Umamaheswaran, V. S. (2002-04-22), "9.3 FFFF ja FFFE lubamine UTF-8-s", WG 2 kohtumise 41. protokolli eelnõu, hotell Phoenix, Singapur, 2001-10-15 / 19
2.1U + FFFC1UTC / 1995-056Sargent, Murray (1995-12-06), Soovitus kodeerida märk WCH_EMBEDDING
UTC / 1996-002Aliprand, Joan; Hart, Edwin; Greenfield, Steve (1996-03-05), "Manustatud objektid", UTC # 67 minutit
N1365Sargent, Murray (1996-03-18), Ettepaneku kokkuvõte - objekti asendamise märk
N1353Umamaheswaran, V. S .; Ksar, Mike (1996-06-25), "8,14", Kopenhaageni WG2 kohtumise nr 30 protokolli mustand
L2 / 97-288N1603Umamaheswaran, V. S. (1997-10-24), "7,3", Kinnitamata koosoleku protokoll, 2. töörühma kohtumine nr 33, Heraklion, Kreeta, Kreeka, 20. juuni - 4. juuli 1997
L2 / 98-004RN1681ISO 10646 - AMD 18 tekst PDAM-i registreerimiseks ja FPDAM-i hääletamiseks, 1997-12-22
L2 / 98-070Aliprand, Joan; Winkler, Arnold, "Lisakommentaarid 2.1 kohta", UTC ja L2 ühiskoosoleku protokoll kohtumisest Cupertinos, 25. – 27. Veebruar 1998
L2 / 98-318N189410646-1 / FPDAM 18 muudetud tekst, muudatus 18: sümbolid jt, 1998-10-22
3.0U + FFF9..FFFB3L2 / 97-255RAliprand, Joan (1997-12-03), "3.D ettepanek reas märkimiseks (rubiin)", Kinnitatud protokoll - UTC nr 73 ja L2 # 170 ühine koosolek, Palo Alto, CA - 4. – 5. August 1997
L2 / 98-055Freytag, Asmus (1998-02-22), Toetus tekstisiseste ja interlineaarsete märkuste rakendamiseks
L2 / 98-070Aliprand, Joan; Winkler, Arnold, "3.C.5. Toetus reasiseste ja ridaüleste märkuste rakendamiseks", UTC ja L2 ühiskoosoleku protokoll kohtumisest Cupertinos, 25. – 27. Veebruar 1998
L2 / 98-099N1727Freytag, Asmus (1998-03-18), Ida-Aasia tüpograafias kasutatud interlineaarsete märkuste rakendamise tugi
L2 / 98-158Aliprand, Joan; Winkler, Arnold (1998-05-26), "Inline ja Interlinear Annotations", Protokolli projekt - UTC nr 76 ja NCITS alamrühma L2 # 173 ühiskoosolek, Tredyffrin, Pennsylvania, 20. – 22. Aprill 1998
L2 / 98-286N1703Umamaheswaran, V. S .; Ksar, Mike (1998-07-02), "8.14", Kinnitamata koosoleku protokoll, WG 2 koosolek nr 34, Redmond, WA, USA; 1998-03-16-20
L2 / 98-270Hiura, Hideki; Kobayashi, Tatsuo (1998-07-29), Ettepanek sise- ja ridaühenduste märkuste ettepanekule
L2 / 98-281R (pdf, HTML)Aliprand, Joan (1998-07-31), "Reasisene ja ridaevaheline märkimine (III.C.1.c)", Kinnitamata protokollid - UTC nr 77 ja NCITS-i alagrupi L2 # 174 ÜHISKOOSOLEK, Redmond, WA - 29. – 31. Juuli 1998
L2 / 98-363N1861Sato, T. K. (1998-09-01), Rubiinimarkerid
L2 / 98-372N1884R2 (pdf, doc)Whistler, Ken; jt. (1998-09-22), UCS-i lisamärgid
L2 / 98-416N1882.zipInterlineaarsete märkuste rakendamise tugi, 1998-09-23
L2 / 98-329N1920Kombineeritud PDAM-i registreerimine ja kaalumishääletus WD-l ISO / IEC 10646-1 / Amd. 30, MUUDATUSETTEPANEK 30: täiendavad ladina ja muud tähemärgid, 1998-10-28
L2 / 98-421RSuignard, Michel; Hiura, Hideki (1998-12-04), Märkused PDAM 30 ridajooneliste märkuste märkide kohta
L2 / 99-010N1903 (pdf, HTML, doc)Umamaheswaran, V. S. (1998-12-30), "8.2.15", WG 2 kohtumise protokoll, 35, London, Suurbritannia; 1998-09-21-25
L2 / 98-419 (pdf, doc)Aliprand, Joan (1999-02-05), "Liinidevahelised märkuste tegelased", Kinnitatud protokoll - UTC nr 78 ja NCITS-i alamrühma L2 # 175 ühine koosolek, San Jose, CA - 1. – 4. Detsember 1998
UTC / 1999-021Duerst, Martin; Bosak, Jon (1999-06-08), W3C XML CG lause märkimismärkidel
L2 / 99-176RMoore, Lisa (1999-11-04), "W3C kontaktavaldus märkuste tegelaste kohta", Protokoll UTC / L2 ühisistungilt Seattle'is 8. – 10. Juunil 1999
L2 / 01-301Whistler, Ken (2001-08-01), "E. Lihtteksti vahetamise puhul on see" tungivalt soovitatav ", Tähemärgi vähenemise analüüs Unicode'i standardis
  1. ^ Kavandatud koodipunktide ja tähemärkide nimed võivad lõplikest koodipunktidest ja nimedest erineda

Vaata ka

Viited

  1. ^ "Unicode'i märkide andmebaas". Unicode'i standard. Laaditud 2016-07-09.
  2. ^ "Unicode'i standardi loetletud versioonid". Unicode'i standard. Laaditud 2016-07-09.
  3. ^ "3.8: plokkhaaval diagrammid" (PDF). Unicode'i standard. versioon 1.0. Unicode konsortsium.
  4. ^ "Soovitused OpenType fontide (OpenType 1.7) jaoks - tüpograafia". docs.microsoft.com. Laaditud 18. oktoober 2020.

Pin
Send
Share
Send