„Unicode“: Munur á milli breytinga

Efni eytt Efni bætt við
Comp.arch (spjall | framlög)
Comp.arch (spjall | framlög)
mEkkert breytingarágrip
Lína 12:
Unicode (frá og með UTF-16) býður upp á 1.114.112 möguleg tákn (í 17 "plönum"), þ.e. er hugsað til framtíðar til að styðja öll framtíðartungumál líka (og notendur geta líka skilgreint sín eigin í Private Use Area (PUA)).
 
Svokallað [[byte order mark]] (BOM), eða '''Unicode signature''', er ekki nauðsynlegt né æskilegt í UTF-8 texta (og þá er textinn strangt til tekið ekki lengur löglegur sem UTF-8), en er ráðlagt í [[UTF-16]] textaskrám. Windows notar UTF-16LE ("little endian"), sem UTF-16, en UTF-16BE er líka til (og UTF-32LE og UTF-32BE). Mörg forrit, t.d. á Linux ráða ekki við UTF-16 skrár jafnvel þó það sé löglegur valmöguleiki, á t.d. Windows. Á Windows var UCS-2 fyrst notað og svo UTF-16, og í seinni tíð í meira mæli UTF-8. Sögulega séð var Unicode takmarkað við 65.536 stafatákn, þ.e. USCUCS-2, þar til kínverjar þvinguðu fram breytingar ("[[Han unification]]") til að styðja kínversku betur, og úr varð UTF-16.
 
Mögulegar kóðanir fyrir Unicode eru [[UTF-8]] (sem notar 1 bæti fyrir öll [[ASCII]] tákn, en annars upp í 4 bæti), [[UCS-2]] (sem nú er úrelt, notar 2 bæti fyrir öll tákn, en inniheldur ekki öll tákn í Unicode staðlinum) og [[UTF-16]] (sem er framlenging á UCS-2 og notar þannig 4 bæti fyrir tákn sem ekki eru í USCUCS-2). Í okkar heimshluta hið minnsta (ef ekki austur-Asíu), tekur UTF-8 alltaf minna pláss fyrir texta viðkomandi svæðis.
 
Sem dæmi nota JSON og XML UTF-8 sem sjálfgefið, en bæði leyfa t.d. UTF-16, þó hefur verið búin til Internet JSON útgáfa (I-JSON), sem leyfir eingöngu UTF-8. Það er líka reglan í nýrri stöðum að leyfa eingöngu UTF-8.