„Unicode“: Munur á milli breytinga

Efni eytt Efni bætt við
Stafsetning
Comp.arch (spjall | framlög)
"139 modern and historic scripts", betri þýðing til fyrir historic? "The Unicode Standard is maintained in conjunction with ISO/IEC 10646, and both are code-for-code identical."
Lína 1:
'''Unicode''' eða '''Samkóti'''<ref>httphttps://tos.sky.is/tos/to/word/isl/4783/</ref> er heiti á [[staðall|stöðluðu]] kerfi í tölvuiðnaði sem gerir [[tölva|tölvum]] kleift að sýna og meðhöndla [[texti|texta]] í flestum [[ritkerfi|ritkerfum]] heims með samræmdum hætti. Nýjasta(þó útgáfaer Unicode[[UTF-16]] samanstendurog afbrigði af meiraenn ennotað, 107auk þúsund[[UTF-8]]). Frá júni 2017, er nýjasta úgáfan Unicode 10.0 sem samanstendur af 136.755 [[stafatákn]]um sem styðja 90139 ritkerfi (bæði nútíma og kerfi sem ekki mismunandieru útgáfurlengur ritkerfanotuð), töflur sem sýna staðsetningu táknanna, aðferðafræði við kóðun, fjölda skilgreininga á stafagerðum svosem [[hástafir|hástafi]] og [[lágstafir|lágstafi]], og margt fleira.
 
Sjálfseignarstofnunin [[The Unicode Consortium]] hefur einsett sér að Unicode muni algerlega koma í stað annarra staðla um textameðhöndlun, þar sem margir þeirra eru takmarkaðir í stærð og möguleikum, og eru ósamhæfir kerfum á fleiri en einu [[tungumál]]i.
 
Árangur Unicode við að sameina stafatöflur hafa leitt til þess að það er orðið afar útbreitt (t.d. er [[UTF-8]] notað af 90.6% vefsíðna) og er ríkjandi við þýðingu og staðfæringu hugbúnaðar. Staðalinn hefur verið innleiddur í margar nýlegar tækninýjungar á hugbúnaðarsviði, svo sem [[XML]], forritunarmálið [[Java]], forritunarumhverfið [[Microsoft .NET]] og [[stýrikerfi|nútímastýrikerfi]].
 
Unicode má innleiða með mismunandi kóðun, hinu ráðandi UTF-8 á internetinu (og í Linux/Unix) eða UTF-16 (er enn notað í Windows, eða alla vega með UTF-8). Öll form af Unicode, nú í algengri notkun taka mismikið pláss fyrir mismunandi stafi ("variable length"); sem dæmi er hámarkið 4 bæti líka í UTF-16 fyrir t.d. "emjoji" tákn (broskallar). Minna notaðar kóðanir eru t.d. [[UTF-32]] sem er líka staðlað en sjaldgæft, eða [[UTF-EBCDIC]]. Hins vegar eru dæmi um afbrigði af UTF-8, sem sum eru algeng, Modified UTF-8 (notað t.d. af Java), og WTF-8 (Wobbly Transformation Format) og [[CESU-8]] (Compatibility Encoding Scheme for UTF-16: 8-Bit), sem t.d Oracle gagnagrunnar notar í stað UTF-8.
Unicode má innleiða með mismunandi kóðun. Þær vinsælustu eru [[UTF-8]] (sem notar 1 bæti fyrir öll [[ASCII]] tákn), [[UCS-2]] (sem nú er úrelt, notar 2 bæti fyrir öll tákn, en inniheldur ekki öll tákn í Unicode staðlinum) og [[UTF-16]] (sem er framlenging á USC-2 og notar þannig 4 bæti fyrir tákn sem ekki eru í USC-2).
 
Ólíkt [[ISO 8859-1]] (líka kallað [[Latin1]]) stafatöflunni sem var ráðandi fyrir íslensku þar sem allir stafir taka eitt bæti (eða t.d. Windows-1252 töflunni sem er jafnvel oftar notað en er svipuð, og eins varðandi alla íslenska stafi), taka séríslenskir stafir í íslensku tvö bæti í Unicode. Fyrstu 256 tákn í Unicode samsvara [[ISO 8859-1]], en aðeins fyrstu 128, þ.e. [[ASCII]] (án séríslensku stafanna), taka einn bæti UTF-8. Kostir Unicode, umfram áðurnefndar stafatöflur, eru meðal annars að texti er ekki lengur takmarkaður við t.d. íslensku og ensku (og önnur nokkur önnur mál úr vestur-Evrópu) heldur er hægt að nota t.d. allt gríska stafróðið með (sem er gott fyrir stærðfræðilegan texta, auk annarra tákna úr stærðfræði) eða t.d. arabísku eða hebresku, sem bæði lesast frá hægri-til-vinstri (Unicode skrár styðja það, en aðeins betri hugbúnaður getur birt rétt, jafnvel með texta í hina áttina, t.d. flestir vafrar, s.s. Firefox og Chrome).
 
==Saga og smáatriði==
Unicode (frá og með UTF-16) býður upp á 1.114.112 möguleg tákn (í 17 "plönum"), þ.e. er hugsað til framtíðar til að styðja öll framtíðartungumál líka (og notendur geta líka skilgreint sín eigin í Private Use Area (PUA)).
 
Svokallað [[byte order mark]] (BOM), eða '''Unicode signature''', er ekki nauðsynlegt né æskilegt í UTF-8 texta, en er ráðlagt í [[UTF-16]] textsskrám. Windows notar UTF16LE ("little endian"), sem UTF-16, en UTF-16BE er líka til (og UTF-32LE og UTF32-BE). Mörg forrit, t.d. á Linux ráða ekki við UTF-16 skrár jafnvel þó það sé löglegur valmöguleiki, á t.d. Windows. Á Windows var UCS-2 fyrst notað og svo UTF-16, og í seinni tíð í meira mæli UTF-8. Sögulega séð var Unicode takmarkað við 65.536 stafatákn, þ.e. USC-2, ar til kínverjar þvinguðu fram breytingar ("[[Han unification]]") til að styðja kínversku betur, og úr varð UTF-16).
 
UnicodeMögulegar kóðanir innleiðafyrir með mismunandi kóðun. Þær vinsælustuUnicode eru [[UTF-8]] (sem notar 1 bæti fyrir öll [[ASCII]] tákn, en annars upp í 4 bæti), [[UCS-2]] (sem nú er úrelt, notar 2 bæti fyrir öll tákn, en inniheldur ekki öll tákn í Unicode staðlinum) og [[UTF-16]] (sem er framlenging á USC-2 og notar þannig 4 bæti fyrir tákn sem ekki eru í USC-2). Í okkar heimshluta hið minnsta (ef ekki austur-Asíu), tekur UTF-8 alltaf minna pláss fyrir texta viðkomandi svæðis.
 
Minna notaðar kóðanir eru t.d. [[UTF-EBCDIC]] (sem er ekki leyfilegt á internetinu, en er notað í stórtölvum) þar sem stafir fara upp í 5 bæti (í upphafi leyfði UTF-8 hins vegar líka upp í 6 bæti, en er nú takmarkað við 4). Kínverjar nota [[GB 18030]] stafatöflu sem má líta á sem kóðun af Unicode. Standard Compression Scheme for Unicode (SCSU), notað t.d. af Microsoft SQL Server og Binary Ordered Compression for Unicode (BOCU-1) eru þjappanir fyrir Unicode.
 
Sem dæmi nota JSON og XML UTF-8 sem sjálfgefið, en bæði leyfa t.d. UTF-16, þó hefur verið búin til Internet JSON útgáfa (I-JSON), sem leyfir eingöngu UTF-8. Það er líka reglan í nýrri stöðum að leyfa eingöngu UTF-8.
 
== Tenglar ==
* [httphttps://unicode.org The Unicode Consortium]
* [httphttps://unicode.org/standard/translations/icelandic.html Hvað er Unicode?]
* [http://utf8everywhere.org/ UTF-8 Everywhere] [[Manifesto]]
 
== Heimildir ==