Jak już wszyscy się zorientowali – kilka słów na temat kodowania znaków, w tym wypadku standardu Unicode. Kto z grubsza wie o co chodzi, prawdopodobnie nie dowie się tu niczego nowego, gdyż za cel obrałem sobie jedynie zwięzłe przedstawienie możliwości jakie daje Unicode; po więcej informacji zapraszam do lepszych opracowań.
W rzeczywistości nie sposób wszystkiego zapamiętać, nie warto nawet próbować. Ważne jedynie żeby wiedzieć gdzie szukać, jeśli coś jest tego warte, samo wejdzie do głowy.
Czym jest kodowanie znaków
Nikogo nie powinno dziwić stwierdzenie, że komputery są w stanie manipulować wyłącznie liczbami. Aby w prosty sposób przedstawić litery, najprościej kolejnym liczbom przyporządkować kolejne znaki (1–A, 2–B, 3–C, …). W ten sposób powstało kilka standardów… w zamierzchłych czasach przyprawiających wszystkich o nagłe skoki ciśnienia, kiedy zamiast upragnionych „ogonków” w tekście pojawiały się „krzaczki”. Aby temu zaradzić powstał (przynajmniej w zamyśle) uniwersalny standard, obejmujący wszystkie znane i całą masę nikomu nieznanych alfabetów i wszelkich przydatnych znaków.
Dla łatwego poruszania się w zawiłościach Unicode, wszystkie je podzielono na bloki. Przy okazji nadano im ludzkie nazwy, całość mniej więcej prezentuje się
w ten sposób i głównie na tym będę się opierał w dalszej części. Oczywiście istnieje całe bogactwo informacji na ten temat, np.
tutaj jest więcej informacji dla lubiących angielski.
W tym miejscu nie da się uniknąć jeszcze kilku drętwych uwag. Po pierwsze, aktualny pozostaje mechanizm: jedna liczba – jeden znaczek. Po drugie, wprowadzanie znaków: można je wstawiać metodą Copy'ego- Paste'a*, można używać systemowej „tablicy znaków”, można też używać
wyłącznie klawiatury.
Ostatnia metoda różnie wygląda w różnych systemach operacyjnych. W Windowsach wystarczy przytrzymać klawisz
alt i wprowadzić numer znaku, używając klawiatury numerycznej. W Linuksie (chyba najczęściej) jest to kombinacja klawiszy
ctrl+ shift+ u a następnie numer znaku analogicznie jak w Windowsie. Do tego dla numerów znaków używa się zapisu dziesiętnego i szesnastkowego, mam nadzieję, że każdy sobie z tym poradzi. W razie problemów liczę na pomoc w komentarzach wiedzących więcej ode mnie.
*Ta metoda nie obejmuje wyłącznie ctrl+ c, ctrl+ v, ale też często wygodniejsze:
ctrl+ insert – kopiuj
shift+ delete – wytnij
shift+ insert – wklej
Ad rem
Podstawowy łaciński
Tu można znaleźć większość znaków znajdujących się bezpośrednio na klawiaturze. Ich numery zgodne są ze
standardem ASCII, pierwszym powszechnie używanym.
(W dalszej części będę zatrzymywał się tylko przy co ciekawszych „rozdziałach” i znakach).
Dodatek do alfabetu łacińskiego i
Rozszerzenie alfabetu łacińskiego –
część A i
część B
W tym miejscu można znaleźć nie sprawiające już kłopotów „ogonki”, litery takie jak znane wszystkim:
szesnastkowo dziesiętnie znak – ewentualny komentarz
00F3 243 ó
0104 260 Ą
0142 322 ł
ale też użyteczne w innych językach:
010C 268 Č
00DC 220 Ü
00E0 224 à
Warto samemu rzucić okiem
Cyrylica
Znajdziemy tu nie tylko znaki niezbędne do pisania po rosyjsku ale, w razie potrzeby, znacznie więcej. Przy okazji ciekawostka, dwa skrótowce, które pomimo podobnego wyglądu składają się z różnych liter:
CCCP (alfabetem łacińskim) i
СССР (cyrylicą)
Znaki interpunkcyjne
Od tego powinienem zacząć, pod tym hasłem kryją się najczęściej używane znaki niedostępne bezpośrednio na klawiaturze:
półpauza i pauza (używane jako myślniki)
2013 8211 –
2014 8212 —
to coś zupełnie innego niż widoczny na klawiaturze
dywiz (używany jako łącznik)
002D 45 -
i coś innego niż minus (jako symbol matematyczny, ale o tym niżej)
2212 8211 −
podobnie wielokropek to nie trzy kropki (mogą się rozjechać np. przy justowaniu wiersza)
2026 8230 …
należy też zapomnieć o obecności znaku " na klawiaturze, poprawne polskie cudzysłowy to
201E 8222 |„
201D 8221 |”
do wyboru mamy też spacje o różnych szerokościach:
2002 8194 M M – szerokości połowy litery M (najszerszej litery); podobnie jak półpauza
2003 8195 M M – szerokości takiej jak M; podobnie jak pauza
2004 8196 M M – jedna trzecia M
2005 8197 M M – czwarta część M
2006 8198 M M – szósta część
200A 8202 M M – najwęższa spacja
wspominam o tym, bo przydaje się to przy pisaniu np. komentarzy… ale zastosowanie niech każdy znajdzie sam.
inne przykładowe znaki
2030 8240 ‰
2031 8241 ‱
2047 8263 ⁇
2048 8264 ⁈
2049 8265 ⁉
Operatory matematyczne
Każdy znajdzie coś dla siebie. O ile minus już się pojawił, „dubluje” się również znak mnożenia:
2217 8727 ∗
przykładowe znaki:
221E 8734 ∞
2227 8743 ∧
2228 8744 ∨
2248 8776 ≈
2261 8801 ≡
2264 8804 ≤
2265 8805 ≥
226B 8811 ≫
Różne symbole
2603 9731 ☃
2610 9744 ☐
2611 9745 ☑
2612 9746 ☒
2622 9762 ☢
262D 9773 ☭
2640 9792 ♀
267F 9855 ♿
Ozdobniki
Kształty przydatne głównie w tekstach drukowanych
2701 9985 ✁
2702 9986 ✂
2703 9987 ✃
270D 9997 ✍
270E 9998 ✎
2722 10018 ✢
2725 10021 ✥
2731 10031 ✱
2740 10048 ❀
275E 10079 ❞
2766 10086 ❦
2780 10112 ➀
2781 10113 ➁
279F 10143 ➟
Ramki
Bez przykładów, ostatnio były w nadmiarze na mikroblogu
Indeksy górne i dolne
2070 8304 |⁰
2071 8305 |ⁱ
00B2 178 |²
00B3 179 |³
2074 8308 |⁴
2079 8313 |⁹
207B 8315 |⁻
207D 8317 |⁽
207E 8318 |⁾
2080 8320 |₀
2081 8321 |₁
2089 8329 |₉
np. X⁻⁽ⁿ⁺ⁱ⁾, Δ₂
Strzałki,
więcej strzałek
Jest z czego wybierać, np:
2190 8592 ←
2191 8593 ↑
2192 8594 →
2193 8595 ↓
2197 8599 ↗
2198 8600 ↘
21D2 8658 ⇒
Pismo Braille'a
Małe wprowadzenie. System Braille'a opiera się na prostokącie, kolejne punkty to:
➀ ➃
➁ ➄
➂ ➅
➆ ➇
Litera n to zaznaczone punkty 1, 3, 4, 5. Wygląda to więc tak:
➊ ➍
➁ ➎
➌ ➅
➆ ➇
⠝ – n
2828 10280 ⠨ –
znak wielkiej litery
283A 10298 ⠺ – W
283D 10301 ⠽ – y
2805 10245 ⠅ – k
2815 10261 ⠕ – o
280F 10255 ⠏ – p
⠨⠺⠽⠅⠕⠏ – Wykop
Ułamki, liczby rzymskie
00BD 189 ½
2189 2585 ↉
2153 8531 ⅓
2154 8532 ⅔
00BC 188 ¼
00BE 190 ¾
2155 8533 ⅕
2156 8534 ⅖
2160 8544 Ⅰ
2161 8545 Ⅱ
2167 8551 Ⅷ
2170 8560 ⅰ
2171 8561 ⅱ
2177 8567 ⅷ
Znaki fonetyczne,
i jeszcze kilka
Międzynarodowy alfabet fonetyczny (
IPA) to robaczki spotykane najczęściej w słownikach angielskiego. Warto wiedzieć, że zapis taki można gdzieś po prostu wkleić i są duże szanse na poprawne wydrukowanie.
Znaki diakrytyczne
Na koniec najciekawsze (przynajmniej dla mnie). To dość szczególne znaki, ponieważ nie występują samodzielnie, ale modyfikują znak poprzedzający. Podobnie wstawia się samogłoski w hebrajskim, dziś tego nie będziemy robić.
Akcenty:
0301 769 –̀ –
gravis (na Szczecin)
0301 770 –́ –
acutus (na Białystok)
0302 771 –̂ –
circumflexus
0303 772 –̃ –
tylda
0304 773 –̄ –
makron
0331 817 –̱ – makron, ale pod spodem
0332 818 –̲ – linia pod znakiem, od biedy można tym p̲o̲d̲k̲r̲e̲ś̲l̲a̲ć̲ jeśli np. na wykopie ktoś nie dał takiej możliwości
Podsumowanie
Mam nadzieję, że tyle wystarczy żeby przynajmniej kilka osób zainteresować. Tak jak pisałem na początku, dobrze jest samodzielnie zapoznać się z ofertą, kiedy przyjdzie potrzeba zawsze można odnaleźć znaczek który gdzieś tam kiedyś był.
Starałem się unikać błędów, ale znając siebie jakaś literówka albo zgubiony przecinek na pewno mi się przytrafił. Myślę że błędy merytoryczne i ewentualne problemy najdą swoje rozwiązanie w komentarzach. Liczę więc na waszą pomoc, ja żadnym ekspertem nie jestem.
Do tego tekstu nie roszczę sobie większych pretensji więc bierzcie, dzielcie się (jeśli warto) i poprawiajcie.
Komentarze (53)
najlepsze
@GGrindzior: Google też się na tym sypie :D
Dziękuję za poprawkę. Zauważyłem kolejny asterysk i chciałem odróżnić ∗ od *, nad znaczeniem wiele się nie zastanawiając. Uzmysłowił mi to 11mariom we wcześniejszym komentarzu
D7 215
× – znak mnożenia
F7 247
÷ – znak dzielenia
A przy okazji poprawka, jedynka w indeksie górnym to:
B9 185 ¹
wymieniony wcześniej znak pod numerem
2071 8305
to nie jedynka, ale „
i
” w indeksie górnym.
CO TERAS
http://dl.dropbox.com/u/5471909/klawiatura.zip
alt+shiht+0 = ° (łatwo zapamiętać bo stopień to takie małe zero)
A do znaków z obcych języków raczej używa się sekwencji modyfikujących
pisałem już o tym kiedyś ale powtórzę bo najwyraźniej nie wszyscy znają
alt ] puszczamy a potem dowolna litera i wychodzi litera z ~ np ã õ ũ ñ
alt [ puszczamy, potem dowolna litera i wychodzi litera z ¨ np ä ü ö Ä Ë
alt '
Kiedyś błędem (ale nie tak od razu dyskwalifikującym) było „spacjowanie” tabulatorów w Wordzie. Dziś stawia się już większe wymagania i tego rodzaju wariacje na temat tabulatora się wręcz wyśmiewa. Jeśli chodzi o skład tekstu, sprawa ma się analogicznie. Już średnio zaawansowane edytory zamieniają np. wszystkie cudzysłowy na polskie – jedyne właściwe, „wiele- kropek” na wielokropki itp. Dobrze jest zwracać na to uwagę, bo nie zawsze
Autor
Swoją drogą cudzysłów w cudzysłowie robi się według polskich norm »tak«?