The Esperanto Encodings Page

(norms for character sets, keyboard layouts, etc.)

The world can greet you in 4000 different tongues, but 7 or 8 bit based legacy computer standards struggle to represent a decent percentage of this linguistic richness. Thankfully things are rapidly improving, with the UTF-8 compression of Unicode, and the MES-1 minimum Unicode subset. Gone are the days of ASCII. Welcome to the time of full Esperanto support - norms for charsets and even a norm for the keyboard 'layout' (press x for ^c, q for ^s etc).



utf8 utf7 ncr url mes t51 jis latin3 eoascii trans morso brajlo signolingvo klavaro lokalo lk programoj ligoj



^

UTF-8 (Unikodo)

Idento

Kiam UTF-8-igante vian TTT-paĝon, nepre metu ene de <head></head> la jenon: <meta http-equiv="Content-type" content="text/html; charset=UTF-8">

Tiam, uzu la UTF-8-an paron por la supersignitaj literoj - nepre ĉiam uzu ne &xxx; (ekzemple Ĉ) sed rekte entajpu la kodon (PC-e, ALT-0xxx) (ekzemple Ĉ):

Rimarkoj

Estas iuj cimoj en TTT-legiloj (versiaj 4) rilate al UTF-8, tamen UTF-8 estas uzinda. UTF-8 estas la normo en XML, WAP-telefonoj, kaj multaj aliaj.

Normo

Kodo (dekume) Kodo (deksesume) Donas literon
196 136 C4 88 Ĉ = C kun cirkumflekso
196 137 C4 89 ĉ = c kun cirkumflekso
196 156 C4 9C Ĝ = G kun cirkumflekso
196 157 C4 9D ĝ = g kun cirkumflekso
196 164 C4 A4 Ĥ = H kun cirkumflekso
196 165 C4 A5 ĥ = h kun cirkumflekso
196 180 C4 B4 Ĵ = J kun cirkumflekso
196 181 C4 B5 ĵ = j kun cirkumflekso
197 156 C5 9C Ŝ = S kun cirkumflekso
197 157 C5 9D ŝ = s kun cirkumflekso
197 172 C5 AC Ŭ = U kun bireto
197 173 C5 AD ŭ = u kun bireto

plussigno = + (ne estas neceso singardi pri + en UTF-8)
Testo

Teknike

Kiel 196 136 el 264 ?

264                dekume =
0108               deksesume =
00000001 00001000  duume =
     001 00001000  duume =
     00100 001000  duume =>
11000100 10001000  UTF-8 duume =
C4 88              UTF-8 deksesume =
196 136            UTF-8 deksese
ASCII-e, uzu 0bbbbbbb; sed Latin-1-e kaj Latin-A-e (kie estas E-o) 110bbbbb10bbbbbb.


^

UTF-7 (Unikodo)

Idento

Se temas pri UTF-7-igante vian TTT-paĝon, nepre metu ene de <head></head> la jenon:   <meta http-equiv="Content-type" content="text/html; charset=x-unicode-2-0-utf-7"> kaj simple uzu la 7-bitan &#unikodo; (memoru ke &#230; ktp ĉiam rilatas al ISO-8859-1, neniam ajn al ISO-8859-3) (aŭ la 7-bitan +utf7kodo-).

Rimarkoj

UTF-7 estas Unikodo 7-bite (do por ekzemple retpoŝto) laŭ formato +base64-

Normo

Kodo Donas literon
+AQg- Ĉ = C kun cirkumflekso
+AQk- ĉ = c kun cirkumflekso
+ARw- Ĝ = G kun cirkumflekso
+AR0- ĝ = g kun cirkumflekso
+ASQ- Ĥ = H kun cirkumflekso
+ASU- ĥ = h kun cirkumflekso
+ATQ- Ĵ = J kun cirkumflekso
+ATU- ĵ = j kun cirkumflekso
+AVw- Ŝ = S kun cirkumflekso
+AV0- ŝ = s kun cirkumflekso
+AWw- Ŭ = U kun bireto
+AW0- ŭ = u kun bireto



^

NCR de HTML (Unikodo)

Idento

Vi ne bezonas (?) tiun <meta...> se temas pri pura HTML NCR. Simple uzu la 7-bitan &#unikodo; (memoru ke &#230; ktp ĉiam rilatas al ISO-8859-1, neniam ajn al ISO-8859-3).

Rimarkoj

Unikodo uzebla en HTML (version >=4) En Java kaj en ECMAscript, uzu \uHHHH kie HHHH estas deksesume.

&#43; = + = plussigno (singardu pri + en UTF-7)(ekzemple en UTF-7 estu ne <font size=+1> sed <font size=+-1> !)

Normo

Kodo (dekume - prefere) Kodo (deksesume - evitinde) Donas literon
&#264; &#x108; Ĉ = C kun cirkumflekso
&#265; &#x109; ĉ = c kun cirkumflekso
&#284; &#x11D; Ĝ = G kun cirkumflekso
&#285; &#x11E; ĝ = g kun cirkumflekso
&#292; &#x124; Ĥ = H kun cirkumflekso
&#293; &#x125; ĥ = h kun cirkumflekso
&#308; &#x134; Ĵ = J kun cirkumflekso
&#309; &#x135; ĵ = j kun cirkumflekso
&#348; &#x15C; Ŝ = S kun cirkumflekso
&#349; &#x15D; ŝ = s kun cirkumflekso
&#364; &#x16C; Ŭ = U kun bireto
&#365; &#x16D; ŭ = u kun bireto



^

Unikodaj URL-oj

Normo

URL kodo Donas literon
%c4%88 Ĉ = C kun cirkumflekso
%c4%89 ĉ = c kun cirkumflekso
%c4%9c Ĝ = G kun cirkumflekso
%c4%9d ĝ = g kun cirkumflekso
%c4%a4 Ĥ = H kun cirkumflekso
%c4%a5 ĥ = h kun cirkumflekso
%c4%b4 Ĵ = J kun cirkumflekso
%c4%b5 ĵ = j kun cirkumflekso
%c4%9c Ŝ = S kun cirkumflekso
%c5%9d ŝ = s kun cirkumflekso
%c5%ac Ŭ = U kun bireto
%c5%ad ŭ = u kun bireto

Testo
Testo kaj klarigo

Ligoj




^

MES-1

Rimarkoj

MES-1 (kaj do MES-2 & MES-3) subtenas Esperanton.

Normo

Unikodo XX__ Unikodo __XX
00 20-7E, A0-FF
01 00-13 16-2B 2E-4D 50-7F B7 EE EF
02 18-1B 1E 1F 7C 92 C7 D8-DB DD
1E 02 03 0A 0B 1E 1F 40 41 56 57 60 61 6A 6B 80-85 9B F2 F3
20 15 18 19 1C 1D AC
21 22 26 5B-5E 90-93
26 6A

Ligoj




^

T.51

Rimarkoj

Oficiala laŭ normo de ITU, ŝajne (?) uzata en Teletekso/Videotekso (do Minitel) kaj Teleteksto 2 kaj ties tiparo.

Ekzistas 7-bita versio de T.51.

Normo

Kodo (dekume) Kodo (deksesume) Donas literon
65 41 A = A
195 67 C3 43 Ĉ = C kun cirkumflekso
195 99 C3 63 ĉ = c kun cirkumflekso
195 71 C3 47 Ĝ = G kun cirkumflekso
195 103 C3 67 ĝ = g kun cirkumflekso
195 72 C3 48 Ĥ = H kun cirkumflekso
195 104 C3 68 ĥ = h kun cirkumflekso
195 74 C3 4A Ĵ = J kun cirkumflekso
195 106 C3 6A ĵ = j kun cirkumflekso
195 83 C3 53 Ŝ = S kun cirkumflekso
195 115 C3 73 ŝ = s kun cirkumflekso
198 85 C6 55 Ŭ = U kun bireto
198 117 C6 75 ŭ = u kun bireto
241 F1 æ = ae ligita

Ligoj




^

JIS

Rimarkoj

Malkiel Unikodo, ne estas tie ĉi Han-unuiĝo.

Kelkaj normoj

TiparoEnkodigoKomentoj
JISShift-JISEUC
JIS-Latin (Japanio)JesJesJesASCII sed kun ¥ anstataŭ \, kaj kun du aliaj modifoj
Duonlarĝa Katakana (Japanio)JesJesJesPor fremd-vortoj kaj emfazoj, eĉ meze de Kanji
JIS X 0208-1990 (Japanio)JesJesJesInkludas la sensupersignitajn Latin-literojn A-Z
JIS X 0212-1990 (Japanio)JesNeJesLa Esperantaj literoj, kaj ĉiuj supersignitaj Latin-literoj, troviĝas en rangoj 10 kaj 11
KS C 5601-1992 (Koreio)JesNeJes
GB 2312-80 (Ĉinio)JesNeJes
Granda Kvinaĵo (Tajvano)NeNeJes

Ligoj




^

ISO-8859-3

Idento

ISO-8859-3 = Latin-3.

Kiam Latin-3-igante vian TTT-paĝon, nepre metu ene de <head></head> la jenon: <meta http-equiv="Content-type" content="text/html; charset=ISO-8859-3"> (sed multaj kroziloj miskomprenas tiun ĉi linion stultece).

Rimarkoj

Metodo evitinda pro tio ke multaj ĝaĝaj sistemoj ne subtenas la normon.

La nova versio de Latin-3 (versio 1998) enhavas nenion novan krom la Unikodigon de la nomoj de la literoj/simboloj. Eĉ la simbolo por la eŭro (€) mankas!

Normo

Kodo (dekume) Kodo (deksesume) Donas literon
198 C6 Ĉ = C kun cirkumflekso
230 E6 ĉ = c kun cirkumflekso
216 D8 Ĝ = G kun cirkumflekso
248 F8 ĝ = g kun cirkumflekso
166 A6 Ĥ = H kun cirkumflekso
182 B6 ĥ = h kun cirkumflekso
172 AC Ĵ = J kun cirkumflekso
188 BC ĵ = j kun cirkumflekso
222 DE Ŝ = S kun cirkumflekso
254 FE ŝ = s kun cirkumflekso
221 DD Ŭ = U kun bireto
253 FD ŭ = u kun bireto

Ligoj




^

ESPERANTO-ASCII

Idento

charset=EO-ASCII-1 por EO-ASCII nivelo 1, charset=EO-ASCII-2 por EO-ASCII nivelo 2

Rimarkoj

Laŭ normo Z.314 de ITU, estas nur dek 7-bitaj kodoj uzeblaj por aliaj lingvoj (vidu unuan suban tabelon). (Tamen, en Teleteksto 1, uzeblaj estas dek tri, nome 23=# 24=$ 40=@ 5B=[ 5C=\ 5D=] 5E=^ 5F=_ 60=` 7B={ 7C=| 7D=} 7E=~.)

La kodoj de la normo EO-ASCII estas zorge elektitaj: pro formo [@^]$# kaj {|, pro Latin-3 }~, pro Z.314 _#, pro uskleco `{.

Ekzemple,

FELI[A @OJO E^OJ A]O $ATI LA#

La normo estas, kvankam interesa, neniam uzita kaj ne agnoskita de la Esperanta komunumo. Nivelo 1 estas ne uzinda. Nivelo 2 povus esti ie utila.

Aliaj variaĵoj de la 7-bita ISO-kodo

Normo : EO-ASCII nivelo 1

(La dek kodoj estas kongruaj al Z.314.)
estus en IRV-ASCII Kodo (deksesume) Donas literon
[ 5B Ĉ = C kun cirkumflekso
{ 7B ĉ = c kun cirkumflekso
@ 40 Ĝ = G kun cirkumflekso
` 60 ĝ = g kun cirkumflekso
^ 5E Ĥ = H kun cirkumflekso
\293; ĥ = h kun cirkumflekso
] 5D Ĵ = J kun cirkumflekso
| 7C ĵ = j kun cirkumflekso
\348; Ŝ = S kun cirkumflekso
~ 7E ŝ = s kun cirkumflekso
\364; Ŭ = U kun bireto
} 7D ŭ = u kun bireto
\ 5C = Unikoda dekuma numero
sekvas, kaj finiĝos per ;

Normo : EO-ASCII nivelo 2

(La dek tri kodoj estas kongruaj al Teleteksto.)
estus en IRV-ASCII Kodo (deksesume) Donas literon
[ 5B Ĉ = C kun cirkumflekso
{ 7B ĉ = c kun cirkumflekso
@ 40 Ĝ = G kun cirkumflekso
` 60 ĝ = g kun cirkumflekso
^ 5E Ĥ = H kun cirkumflekso
_ 5F ĥ = h kun cirkumflekso
] 5D Ĵ = J kun cirkumflekso
| 7C ĵ = j kun cirkumflekso
$ 24 Ŝ = S kun cirkumflekso
~ 7E ŝ = s kun cirkumflekso
# 23 Ŭ = U kun bireto
} 7D ŭ = u kun bireto
\ 5C = Unikoda dekuma numero
sekvas, kaj finiĝos per ;



^

Esperanto transliterade kaj transskribade

Rimarkoj

Rimarku ke uw/vx estus multe malpli ambigua ol ŭ - tamen pro ebleco de fremd-vortoj en Esperanta teksto, neniu solvaĵo estas perfekta.

En Latin-1, multe prefere uzu ù (Ù) anstataŭ ú (Ú). Kial, nu, ù pli oftas, ekzemple ĉe GSM, kaj aldone, 1) ù estas pli kutima (dum longa tempo ĝin havis la "Heroldo de Esperanto"); kaj 2) la maldekstra korno aludas ligon kun la ĵusa a aŭ e; kaj 3) en kelkaj lingvoj (ekzemple ĉeĥa, slovaka, hungara) la dekstra korno markas longajn vokalojn - do, la malon de la Esperanta ŭ.

Malkiel transskriba helpalfabeto, translitera helpalfabeto devas esti (komputile) neambigua (*). Nur kie Unikodo ne uzeblas, ekzemple en DNS kaj oldaj telefonoj, uzu prefere la transliteradon. Nur kie ù ne uzeblas, ekzemple en DNS, uzu u.

Transskribado & Transliterado
Transskribado por ASCII (Zamenhofa) Transskribado por Latin-1 Transliterado por ASCII Transliterado por Latin-1 Amuzaĵe por ASCII Amuzaĵe por Latin-1 Alia ebleco
Ch Ch Ĉ Ĉ Ĉ Ç C' Ĉ = C kun cirkumflekso
ch ch ĉ ĉ ĉ ç c' ĉ = c kun cirkumflekso
Gh Gh Ĝ Ĝ Gy Q G' Ĝ = G kun cirkumflekso
gh gh ĝ ĝ gy q g' ĝ = g kun cirkumflekso
Hh Hh Ĥ Ĥ Hh Hh H' Ĥ = H kun cirkumflekso
hh hh ĥ ĥ hh hh h' ĥ = h kun cirkumflekso
Jh Jh Ĵ Ĵ Jy Ý J' Ĵ = J kun cirkumflekso
jh jh ĵ ĵ jy ý j' ĵ = j kun cirkumflekso
Sh Sh Ŝ Ŝ Ŝ X S' Ŝ = S kun cirkumflekso
sh sh ŝ ŝ ŝ x s' ŝ = s kun cirkumflekso
vokalo lige kun U Ù Ŭ Ù W Ù U Ŭ = U kun bireto
vokalo lige kun u ù ŭ ù w ù u
ekz. au
ŭ = u kun bireto
vokalo plus U U U U U U Ü U = U sen bireto
vokalo plus u u u u u u ü
ekz. neü
u = u sen bireto

Ekzemple: Ĉiuĵaŭde --> Ĉiuĵaùde
Ekzemple: ĝi --> ĝi
Ekzemple: EĤOŜANĜO ĈIUĴAŬDE --> EĤOŜANĜO ĈIUĴAÙDE.

Ligoj




^

Morso

Rimarkoj

Oficiala laŭ FCC.

Normo

Morsa kodo Donas literon
-.-.. Ĉ = C kun cirkumflekso
-.-.. ĉ = c kun cirkumflekso
--.-. Ĝ = G kun cirkumflekso
--.-. ĝ = g kun cirkumflekso
-.--. Ĥ = H kun cirkumflekso
-.--. ĥ = h kun cirkumflekso
.---. Ĵ = J kun cirkumflekso
.---. ĵ = j kun cirkumflekso
...-. Ŝ = S kun cirkumflekso
...-. ŝ = s kun cirkumflekso
..-- Ŭ = U kun bireto
..-- ŭ = u kun bireto

Ligoj




^

Brajlo

Rimarkoj

Oni uzas 6-punktan Brajlo:

                 14
                 25
                 36

Notu ke w/W estas 23456.

Normo

Brajlaj punktoj Donas literon
146
**
--
-*
Ĉ = C kun cirkumflekso
same ĉ = c kun cirkumflekso
12456
**
**
-*
Ĝ = G kun cirkumflekso
same ĝ = g kun cirkumflekso
1256
*-
**
-*
Ĥ = H kun cirkumflekso
same ĥ = h kun cirkumflekso
2456
-*
**
-*
Ĵ = J kun cirkumflekso
same ĵ = j kun cirkumflekso
2346
-*
*-
**
Ŝ = S kun cirkumflekso
same ŝ = s kun cirkumflekso
346
-*
--
**
Ŭ = U kun bireto
same ŭ = u kun bireto

Ligoj




^

Signolingvo

Normo

Uzo de manalfabeto de Signuno (bazita sur Gestuno) estas proponata.

Ligoj




^

La klavaro por Esperanto

Idento

Nur estas unu klavaro por Esperanto.

Rimarkoj

Ĉu QWERTY, ĉu AZERTY, ĉu DVORJAK, premu x por ĉ, q por ŝ, ktp.

Foje HH/Hh/hh ne estas subtenata. Metodo entajpi oŭ aŭ sŭ ktp ne estas normigita.

Rimarku la sensuperhokajn vortojn kiaj balau, pereu, reutili, praulo, posteulo, ktp.

Normo

Klavare Donas litero(j)n
X Ĉ = C kun cirkumflekso
x ĉ = c kun cirkumflekso
Y Ĝ = G kun cirkumflekso
y ĝ = g kun cirkumflekso
HH Ĥ = H kun cirkumflekso
Hh Ĥ = H kun cirkumflekso
hh ĥ = h kun cirkumflekso
W Ĵ = J kun cirkumflekso
w ĵ = j kun cirkumflekso
Q Ŝ = S kun cirkumflekso
q ŝ = s kun cirkumflekso
AU AŬ = A U kun bireto
Au Aŭ = A u kun bireto
au aŭ = a u kun bireto
EU EŬ = E U kun bireto
Eu Eŭ = E u kun bireto
eu eŭ = e u kun bireto

Ligoj




^

Lokalo -- datoj, tempoj, monkvantoj

Ankoraŭ studata kaj konstruata !!

FORMATO DE TEMPOJ KAJ DATOJ
JJJJ.MMM.TT
JJJJ.MMM.TT-TT
JJJJ.MMM.TT-MMM.TT
JJJJ.MMM.TT-JJJJ.MMM.TT
ekzemple: 1998.JUL.12-25
hh:mm
hh:mm:ss.s
ekzemple: 23:50

FORMATO DE MONKVANTOJ
estasaŭ egale
GBP 1.500,99£ 1.500,99
EUR 1.000€ 1.000

TAGOJ
mallongigovortokomentoj
lulundo
mamardo
memerkredo
ĵaĵaŭdo
vevendredo
sasabato
didimanĉo

MONATOJ
numero (=MM)mallongigo (=MMM)vortokomentoj
01janjanuaro
02febfebruaro
03marmarto
04apraprilo
05majmajo
06junjunio
07juljulio(sed julo => kristnasko)
08aŭgaŭgusto
09sepseptembro
10oktoktobro
11novnovembro
12decdecembro



^

Lingvaj kodoj

Normo

Normo Kodo
ISO-639-1 eo
ISO-639-2 epo
Ethnologue esp
WAP telefonoj dekume, 26
Apple dekume, 94



^

Programoj

Ret-kroziloj por Unikodo.

  1. Unue instalu Netscape 4 (sed 5 por bona algluado) / MS-IE 4 / Tango / Mosaic
  2. Akiru senpagajn Eŭro-Unikodajn tiparojn, ekzemple WGL4 de Microsoft. (Vindozo NT kaj 98 jam havas Unikodajn/WGL4 tiparojn, sed por Vindozo 95 TTT-leganto unue bezonas instali la novajn senpagajn kern-tiparojn.)
  3. Certigu ke la paĝo uzas bonan HTML4, testo por HTML
  4. Testo por Java

Sistemklavaroj por la norma E-klavaro.

Teksprilaboriloj por Esperanto (kun la norma E-klavaro).




^

Aliaj interesaj ligoj

En Esperanto:

En aliaj lingvoj:




1999.SEPT.04 Aaron :-)*