spis treści.poprzedni.następny. Pabloware.com
 

Kurs języka XML

Sprawa ogonkowa, czyli Unicode

 

To zadziwiające, że w standardzie XML nawet sprawa kodowania znaków została rozwiązana w najlepszy możliwy sposób.

Dostępne standardy

W XML-u domyślnie używa się standardu znanego już od jakiegoś czasu, Unikodu. Norma ta tym różni się od „jednobajtowych” ISO-8859-2 (m.in. Linux, Strony WWW, Usenet), czy Windows-1250, że do zapisu jednego znaku używa dwóch bajtów (16 bitów). Dzięki temu Unicode jest w stanie „pomieścić” jednocześnie znaki używane w wielu alfabetach, a także rozmaite symbole. Pozwala Ci to w jednym dokumencie pisać np. cyrlicą i polskim alfabetem.

Oprócz Unikodu możesz stosować także wysłużone już standardy jednobajtowe. Jeśli taki jest twój wybór, bardzo zalecane, abyś dla języka polskiego używał ISO-8859-2. Jest to zdecydowanie najbardziej uniwersalna norma.

Jeszcze co nieco o Unikodzie

Żeby zapewnić łatwiejsze wykorzystywanie Unikodu, jego autorzy określili kilka sposobów zapisywania znaków. Są to: UTF-16, UTF-8 i UTF-7. Wszystkie one używają oczywiście tej samej tablicy i mają te same możliwości, cała różnica polega na innym sposobie zapisu.

Największą przenośność zapewni twoim dokumentom właśnie Unicode. Każdy parser powinien go obsługiwać. Nie masz tej gwarancji co do standardów jednobajtowych.

Deklaracja

Aby poinformować parser, jakiego kodowania znaków chcesz w danym dokumencie używać skorzystaj z atrybutu „encoding” standardowej deklaracji XML, np.:

<?xml version="1.0" encoding="UTF-16"?>

Domyślny standard w XML-u to UTF-8. Jeśli taki właśnie stosujesz, nie musisz w deklaracji umieszczać informacji o kodowaniu. Rzecz wygląda podobnie, kiedy używasz UTF-16, ale jeśli stosujesz którykolwiek z jednobajtowych standardów, deklaracja jest oczywiście niezbędna.

Odrobinę informacji o programach pomocnych w kodowaniu i konwersji znaków znajdziesz w części „Narzędzia”.

 
spis treści.poprzedni.następny. Pabloware.com