Kódování znaků
Zatímco textové dokumenty zobrazujeme jako řádky textu, počítače je ve skutečnosti vidí dvojitý data nebo série jedniček a nul. Proto znaků v textovém dokumentu musí být reprezentovány číselnými kódy. Za tímto účelem se text ukládá pomocí jednoho z několika typů kódování znaků.
Nejoblíbenější typy kódování znaků jsou ASCII a Unicode. Zatímco ASCII je stále podporován téměř všemi textovými editory, Unicode se běžněji používá, protože podporuje větší znakovou sadu. Unicode je často definován jako UTF-8, UTF-16 nebo UTF-32, které odkazují na různé standardy Unicode. UTF znamená „Unicode Transformation Format“ a číslo udává počet bitů slouží k reprezentaci každého znaku. Od počátků práce na počítači byly postavy zastoupeny alespoň jednou byte (8 bitů), což je důvod, proč různé standardy Unicode ukládají znaky v násobcích 8 bitů.
Zatímco ASCII a Unicode jsou nejběžnější typy kódování znaků, lze použít i jiné standardy kódování zakódovat textové soubory. Například existuje několik typů standardů kódování znaků specifických pro jazyk, například západní, latinsko-americké, japonské, korejské a čínské. Zatímco západní jazyky používají podobné znaky, východní jazyky vyžadují úplně jinou znakovou sadu. Latinské kódování by proto nepodporovalo symboly potřebné k reprezentaci textu šňůra v čínštině. Naštěstí moderní standardy, jako je UTF-16, podporují dostatečně velkou znakovou sadu, která představuje západní i východní písmena a symboly.