[ENG] Znaki, symbole i "cud" którym jest UTF-8

Ludzie z Computerphile opowiadają o tym dlaczego widzimy coraz mniej "krzaczków" w internecie, przyczynach powstania Unicode oraz o sposobie działania UTF-8.

Szczur90 z dodany: 20.09.2013, 12:53:09

Komentarze (35)

najlepsze

fhrh

21.09.2013, 07:13:43

Widać że gość ciekawie mówi. Ani jednego komentarza o paniach kelnerkach w tle :)

q.....u

konto usunięte 20.09.2013, 16:19:12

4:50 skąd mu się wzięło, że potrzeba 32 bitów do zapisania liczb 0 - 100.000? Już 24 to jest z mega zapasem

KrzaQ2

20.09.2013, 19:16:51

@Szczur90: On mówił o czymś zupełnie innym.

@qwertyu: Komputery są zbudowane w taki sposób, ƶe mogą efektywnie operować na pamięci o rozmiarach 8,16 i 32 bitów*. Wszystko inne jest znacznie mniej wydajne, dlatego jeśli nie zmieścili się w 16 bitach (65536 kombinacji) musieli przejść na 32.

* 64-bitowy kod moƶe operować na zmiennych 64-bitowych, ale tego praktycznie nie było podczas tworzenia unicode, poza tym, 64 bity to znaczny overkill jeśli

Szczur90

20.09.2013, 16:30:52

@qwertyu: Zauważ sytuację z 7:23. Na 24 bitach zapiszesz tylko 16 bitów dla określenia znaku (16 xów co daje 65 536 znaków). By zapisaś znak na pozycji 100000 musimy dodać jeszcze jeden x a to jest kolejne 8 bitów bo określenia pozycji, bo wtedy musimy znak zapisac jako 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

Trochę pogmatwałem ale mam nadzieję, ze zrozumiesz mój tok rozumowania :)

EDIT: Tutaj masz bardzo ładną tabelkę

l.....l

konto usunięte 20.09.2013, 19:41:08

-1

A M$ upiera się przy UTF-16.. : /.

Nie jestem specem, ale może mi ktoś wyjaśnić, jaki to ma sens poza pożeraniem większej ilości RAMu?..

matowy

20.09.2013, 20:05:49

@losiul:

UTF8: Variable-width encoding, backwards compatible with ASCII. ASCII characters (U+0000 to U+007F) take 1 byte, code points U+0080 to U+07FF take 2 bytes, code points U+0800 to U+FFFF take 3 bytes, code points U+10000 to U+10FFFF take 4 bytes. Good for English text, not so good for Asian text.

UTF16: Variable-width encoding. Code points U+0000 to U+FFFF take 2 bytes, code points U+10000 to U+10FFFF take 4 bytes. Bad for

j.....i

konto usunięte 21.09.2013, 08:55:47

@losiul: W obecnej chwili? Żaden, bo Unicode nie mieście się już w 2 bajtach. Wcześniej - o wiele wygodniej się pracuje na takiej reprezentacji. Najprostszym przykładem jest liczenie ilości znaków - w UTF16 wystarczy podzielić ilość bajtów na 2, w UTF8 musisz przeparsować wszystkie znaczki. . Z tego samego powodu wybrano UTF16 do JVM. Teraz UTF16 wymaga koszmarnego surogate pairs, więc nie ma już żadnych zalet.