Museo8bits: 1 revisión importada

2021-10-17T09:14:59Z

1 revisión importada

← Revisión anterior	Revisión del 11:14 17 oct 2021
(Sin diferencias)

Museo8bits: Página creada con «'''UTF-8''' (8-bit ''Unicode Transformation Format'') es un formato de codificación de caracteres Unicode e ISO 10646 utilizando símbolos de longitud variable...»

2015-08-08T08:57:19Z

Página creada con «'''UTF-8''' (8-bit ''Unicode Transformation Format'') es un formato de codificación de caracteres Unicode e ISO 10646 utilizando símbolos de longitud variable...»

Página nueva

'''UTF-8''' (8-[[bit]] ''Unicode Transformation Format'') es un formato de codificación de caracteres [[Unicode]] e [[ISO 10646]] utilizando símbolos de longitud variable. UTF-8 fue creado por [[Rob Pike|Robert C. Pike]] y [[Ken Thompson|Kenneth L. Thompson]]. Está definido como estándar por la RFC 3629 de la ''[[Internet Engineering Task Force]]'' (IETF).<ref name="UTF-8">{{cita web | url=//tools.ietf.org/html/rfc3629 | título=RFC 3629 - UTF-8, un formato de transformación de ISO 10646
| autor = F. Yergeau | fecha=Noviembre [[2003]]| editorial=[[Internet Society]]| fechaacceso=20 de mayo de 2009}}</ref> Actualmente es una de las tres posibilidades de codificación reconocidas por Unicode y lenguajes web, o cuatro en [[ISO 10646]].

Sus características principales son:

* Es capaz de representar cualquier carácter Unicode.
* Usa símbolos de longitud variable (de 1 a 4 bytes por carácter Unicode).
* Incluye la especificación [[ASCII|US-ASCII]] de 7 bits, por lo que cualquier mensaje ASCII se representa sin cambios.
* Incluye sincronía. Es posible determinar el inicio de cada símbolo sin reiniciar la lectura desde el principio de la comunicación.
* No superposición. Los conjuntos de valores que puede tomar cada byte de un carácter multibyte, son disjuntos, por lo que no es posible confundirlos entre sí.

Estas características lo hacen atractivo en la codificación de correos electrónicos y páginas web.<ref name="GoogleUnicode">{{cita web | url=http://googleblog.blogspot.com/2008/05/moving-to-unicode-51.html | título=Moving to Unicode 5.1 | fecha=[[5 de mayo]] de [[2008]] | editorial=Official Google Blog| fechaacceso=20 de mayo de 2009}}</ref><ref>[http://w3techs.com/technologies/overview/character_encoding/all Usage of character encodings for websites]</ref> El [[IETF]] requiere que todos los protocolos de [[Internet]] indiquen qué [[código de caracteres|codificación]] utilizan para los textos y que UTF-8 sea una de las codificaciones contempladas.<ref name="ITF">{{cita web | url=//tools.ietf.org/html/rfc2277 | título=RFC 2277 - Política oficial de IETF sobre juegos de caracteres e idiomas| autor = H. Alvestrand | fecha=Enero [[1998]]| editorial=[[Internet Engineering Task Force]]| fechaacceso=20 de mayo de 2009}}</ref> El ''[[Internet Mail Consortium]]'' (IMC) recomienda que todos los programas de correo electrónico sean capaces de crear y mostrar mensajes codificados utilizando UTF-8.<ref name="IMC">{{cita web|url=http://www.imc.org/mail-i18n.html | title=Utilización de Caracteres Internacionales en el Correo de Internet | fecha=[[1 de agosto]] de [[1998]] | editorial =Internet Mail Consortium | fechaacceso=20 de mayo de 2008}}</ref>

== Historia ==

UTF-8 fue ideado por [[Ken Thompson|Kenneth L. Thompson]] bajo los criterios de diseño de [[Rob Pike|Robert C. Pike]] el 2 de septiembre de [[1992]]. Ambos lo implementaron e implantaron en su [[sistema operativo]] ''[[Plan 9 from Bell Labs]]''. Posteriormente fue oficialmente presentado en la conferencia [[USENIX]] en [[San Diego (California)|San Diego]] en enero de [[1993]]. Fue promovido a estándar con el patrocinio de ''X/Open Joint Internationalization Group'' (XOJIG) y durante el proceso recibió diferentes nombres como FSS/UTF y UTF-2.<ref name="UTF-8"/>

== Descripción ==
UTF-8 divide los caracteres Unicode en varios grupos, en función del número de bytes necesarios para codificarlos. El número de bytes depende exclusivamente del código de carácter asignado por Unicode y del número de bytes necesario para representarlo. La distribución de caracteres es la siguiente:

* Caracteres codificados con un byte: Los incluidos en US-ASCII, un total de 128 caracteres.
* Caracteres codificados con dos bytes: Un total de 1920 caracteres. Este grupo incluye los caracteres [[Lenguas romances|romances]] más signos diacríticos, y los alfabetos [[alfabeto griego|griego]], [[alfabeto cirílico|cirílico]], [[alfabeto copto|copto]], [[alfabeto armenio|armenio]], [[alfabeto hebreo|hebreo]], [[alfabeto árabe|árabe]], [[alfabeto siríaco|siríaco]] y [[Thaana]] entre otros.
* Caracteres codificados con tres bytes: Caracteres del plano básico multilingüe de Unicode, que unido al grupo anterior, incluye la práctica totalidad de caracteres de uso común, entre ellos los caracteres del grupo [[CJK]]: Chino, japonés y coreano.
* Caracteres codificados con cuatro bytes: Caracteres del plano suplementario multilingüe. Símbolos matemáticos y alfabetos clásicos para uso principalmente académico: [[Lineal B]] silábico e ideográfico, alfabeto persa, fenicio... Y el plano suplementario ideográfico: caracteres [[Han]] de uso poco común.

Una propiedad importante de la codificación es que los bits más significativos del primer byte de una secuencia multi-byte determinan la longitud de la secuencia. Estos bits más significativos 110 para secuencias de dos bytes; 1110 para secuencias de tres bytes, etc. Estos bits además proporcionan la información de sincronía que permite identificar el inicio de un símbolo.

=== Codificación de los caracteres ===

La tabla siguiente muestra la forma en que se codifican los caracteres. Los valores fijos al principio de cada byte garantizan el cumplimento del principio de no superposición, pues son distintos en función de la posición del byte en la cadena. Se incluye también la codificación UTF-16 para ver la diferencia con una codificación de número fijo de bytes.


{| class="wikitable" border="1"
|-----
| Rango de puntos [[UNICODE]]
| Valor escalar
| [[UTF-16]]
| UTF-8
| Notas
|-----
| <code>000000-00007F</code> || <code>00000000 0xxxxxxx</code> ||<code>00000000 0xxxxxxx</code>
| <code>0xxxxxxx</code>
| Rango equivalente a US-ASCII. Símbolos de un único byte donde el bit más significativo es 0
|-----
| <code>000080-0007FF</code> || <code>00000yyy yyxxxxxx</code> || <code>00000yyy yyxxxxxx</code>
| <code>110yyyyy 10xxxxxx</code>
| align="top" | Símbolos de dos bytes. El primer byte comienza con 110, el segundo byte comienza con 10
|-----
| <code>000800-00FFFF</code> || <code>zzzzyyyy yyxxxxxx</code> || <code>zzzzyyyy yyxxxxxx</code>
| <code>1110zzzz 10yyyyyy 10xxxxxx</code>
| align="top" | Símbolos de tres bytes. El primer byte comienza con 1110, los bytes siguientes comienzan con 10
|-----
| <code>010000-10FFFF</code> || <code>000uuuuu zzzzyyyy yyxxxxxx</code>
| <code>110110ww wwzzzzyy 110111yy yyxxxxxx (wwww = uuuuu - 1)</code>
| <code>11110uuu 10uuzzzz 10yyyyyy 10xxxxxx</code>
| Símbolos de cuatro bytes. El primer byte comienza con 11110, los bytes siguientes comienzan con 10
|}

Siguiendo el esquema anterior, sería posible incrementar el tamaño máximo del símbolo de 4 a 6 bytes. La definición de UTF-8 dada por Unicode no admite esta posibilidad que sí es admitida por ISO/IEC.<ref name="UNICODE-UTF">{{cita libro |autor= The Unicode Consortium |editor= Julie D. Allen, Joe Becker (et al.) |título= Unicode 5.0 standard |capítulo= 2.5 Encoding Forms |url=http://www.unicode.org/versions/Unicode5.0.0/bookmarks.html |fecha= [[octubre de 2006]] |año= [[2006]] |mes= [[octubre]] |editorial= Addisson-Wesley |idioma= Inglés |isbn= 0-321-48091-0}}</ref>

[[Archivo:Codificación UTF-8.svg|thumb|right|350px|Ejemplo: Codificación del carácter [[Unicode]] ''ñ''.]]
Veamos, a modo de ejemplo, cómo se codifica en UTF-8 el carácter eñe ('ñ'), que se representa en Unicode como 0x00F1:
* Su valor se sitúa en el rango de 0x0080 a 0x07FF. Una consulta a la tabla permite ver que debe ser codificado usando 2 bytes, con el formato ''110''xxxxx ''10''xxxxxx.
* El valor [[hexadecimal]] 0x00F1 es equivalente al [[binario]] (0000-0)'''000-1111-0001''' (los primeros 5 bits se ignoran, ya que no son necesarios para representar valores en el rango especificado).
* Los 11 bits requeridos se sitúan ordenados en la posición marcada por las equis: ''110'''''00011''' ''10'''''110001'''.
* El resultado final son dos bytes con los valores hexadecimales 0xC3 0xB1. Ese es el código de la letra eñe en UTF-8.

Para recuperar el punto de código original se realiza el proceso inverso, descomponiendo las secuencias de bits en sus componentes y tomando solo los bits necesarios.

=== Errores de codificación ===
Las normas de codificación establecen, por lo tanto, límites a las cadenas que se pueden formar. Según la norma, un intérprete de cadenas debe rechazar como inválidos, y no tratar de interpretar, las caracteres mal formados. Un intérprete de cadenas UTF-8 puede cancelar el proceso señalando un error, omitir los caracteres mal formados o reemplazarlos por un carácter U+FFFD (''REPLACEMENT CHARACTER'').

Los siguientes son errores de codificación:
* Secuencias truncadas, cuando un carácter de inicio multi-byte no está seguido por suficientes bytes.
* Bytes de datos (comenzados por 10) sin el correspondiente inicio de carácter.
* Caracteres anómalamente largos: Por ejemplo, representar con 2 bytes un carácter del rango ASCII de un byte. Los bytes <code>0xC0</code>, <code>0xC1</code> no se admiten.
* Bytes de inicio de carácter que especifican un largo anómalo de 5 o 6 bytes. Los bytes <code>0xF8</code> a <code>0xFD</code> no se admiten.
* Valores fuera del rango Unicode: Los bytes <code>0xF5</code> y <code>0xF7</code> no se admiten.
* Caracteres inválidos. Los caracteres en el rango de pares subrogados de UTF-16, con código de <code>0xD800</code> a <code>0xDFFF</code>, no son caracteres reales y no deben codificarse en UTF-8.

=== ''Byte order mark'' (BOM) ===
Cuando se sitúa al inicio de una cadena UTF-8, un carácter <code>0xFEFF</code>, codificado en UTF-8 como <code>0xEF</code>,<code>0xBB</code>,<code>0xBF</code>, se denomina ''Byte Order Mark'' (BOM) e identifica el contenido como una cadena de caracteres Unicode. Cuando este carácter se encuentra en otro lugar de la cadena debe ser interpretado con su significado original Unicode (<code>ZWNBSP</code>). Al ser UTF-8 una codificación en la que la unidad de información es el byte, no tiene la utilidad que sí tiene en UTF-16 y UTF-32 de identificar el orden de bytes en una palabra (''[[endianness]]'').

La especificación no recomienda o desaconseja la utilización de BOM, aunque sí desaconseja eliminarlo si existe como medida de seguridad, previendo errores en aplicaciones de firma digital, etc. También advierte que debe ser eliminado en operaciones de concatenación para impedir que se mantenga en posiciones no iniciales.

== Derivaciones de UTF-8 ==
Las siguientes normas de codificación presentan diferencias con la especificación UTF-8 y son, por lo tanto, incompatibles con ella.

=== CESU-8 ===
Esta implementación realiza una traducción directa de la cadena de caracteres representada con UTF-16 en lugar de codificar los puntos de código Unicode. El resultado es codificaciones diferentes para caracteres Unicode con código superior a <code>0xFFFF</code>.<ref name="UTF-8"/> [[Oracle]], a partir de la versión 8, implementa CESU-8 con el alias ''UTF8'' y, a partir de la versión 9, UTF-8 estándar con otro alias.<ref name="ORACLE">{{cita web | url=http://www.oracle.com/technology/tech/globalization/pdf/TWP_AppDev_Unicode_10gR2.pdf | título=Globalization Support. Oracle Unicode database support.| autor = Simon Law | fecha=[[Mayo de 2005]]| editorial=[[Oracle Corporation]]| fechaacceso=20 de mayo de 2009}}</ref> Java y Tcl utilizan esta codificación.

=== UTF-8 modificado ===
Con UTF-8 modificado, el carácter ''nulo'' se codifica como <code>0xC080</code> en lugar de <code>0x00</code>. De esta forma un texto que contenga el carácter nulo no contendrá el byte <code>0x00</code> y, por lo tanto, no se truncará en lenguajes como C que consideran <code>0x00</code> un final de cadena.

Todas las implementaciones conocidas de UTF-8 modificado cumplen, además, con CESU-8.

== Ventajas y desventajas ==
==== Ventajas ====
* UTF-8 permite codificar cualquier carácter Unicode.<ref name="UTF-8"/>
* Es compatible con US-ASCII, la codificación del repertorio de 7 bits es directa.
* Fácil identificación. Es posible identificar claramente una muestra de datos como UTF-8 mediante un sencillo algoritmo. La probabilidad de una identificación correcta aumenta con el tamaño de la muestra.<ref name="UTF-8"/>
* UTF-8 ahorrará espacio de almacenamiento para textos en caracteres latinos, donde los caracteres incluidos en US-ASCII son comunes, cuando se compara con otros formatos como UTF-16.<ref name="UNICODE"/>
* Una secuencia de bytes para un carácter jamás será parte de una secuencia más larga de otro carácter por contener información de sincronización.

==== Desventajas ====
* UTF-8 utiliza símbolos de longitud variable; eso significa que diferentes caracteres pueden codificarse con distinto número de bytes. Es necesario recorrer la cadena desde el inicio para encontrar el carácter que ocupa una determinada posición.
* Los caracteres ideográficos usan 3 bytes en UTF-8, pero sólo 2 en UTF-16. Así, los textos chinos, japoneses o coreanos ocupan más espacio cuando se representan en UTF-8.<ref name="UNICODE">{{cita libro |autor= The Unicode Consortium |editor= Julie D. Allen, Joe Becker (et al.) |título= Unicode 5.0 standard |url=http://www.unicode.org/versions/Unicode5.0.0/bookmarks.html |fecha= [[octubre de 2006]] |año= [[2006]] |mes= [[octubre]] |editorial= Addisson-Wesley |idioma= Inglés |isbn= 0-321-48091-0}}</ref>
* UTF-8 ofrece peor rendimiento que UTF-16 y UTF-32 en cuanto a coste de computación,<ref name="UNICODE"/> por ejemplo en operaciones de ordenación.

== Referencias ==
{{listaref}}

== Véase también ==
* [[Unicode|El estándar Unicode]]
* [[UTF-16]]
* [[UTF-32]]

== Enlaces externos ==
* RFC 3629. Estándar UTF-8 (en inglés).
* [http://doc.cat-v.org/plan_9/4th_edition/papers/utf Hello World] Presentación de UTF-8 en ''USENIX winter 1993'' por Rob C. Pike y Ken Thompson (en inglés).
* [http://doc.cat-v.org/bell_labs/utf-8_history Diseño de UTF-8 comentado por Robert C. Pike] (en inglés).

{{wp}}
[[Categoría:Codificación de caracteres]]
[[Categoría:Unicode]]

[[ar:صيغة التحويل الموحد-8]]
[[bg:UTF-8]]
[[ca:UTF-8]]
[[cs:UTF-8]]
[[da:UTF-8]]
[[de:UTF-8]]
[[el:UTF-8]]
[[en:UTF-8]]
[[eo:UTF-8]]
[[es:UTF-8]]
[[fa:یوتی‌اف-۸]]
[[fi:Unicode#UTF-8]]
[[fr:UTF-8]]
[[he:UTF-8]]
[[hr:UTF-8]]
[[hu:UTF-8]]
[[it:UTF-8]]
[[ja:UTF-8]]
[[ko:UTF-8]]
[[lt:UTF-8]]
[[lv:UTF-8]]
[[ml:യു.ടി.എഫ്-8]]
[[ms:UTF-8]]
[[nl:UTF-8]]
[[nn:UTF-8]]
[[no:UTF-8]]
[[pl:UTF-8]]
[[pt:UTF-8]]
[[ru:UTF-8]]
[[sk:UTF-8]]
[[sl:UTF-8]]
[[sr:UTF-8]]
[[sv:UTF-8]]
[[tr:UTF-8]]
[[uk:UTF-8]]
[[vi:UTF-8]]
[[zh:UTF-8]]

UTF-8 - Historial de revisiones

Museo8bits: 1 revisión importada

Museo8bits: Página creada con «'''UTF-8''' (8-bit ''Unicode Transformation Format'') es un formato de codificación de caracteres Unicode e ISO 10646 utilizando símbolos de longitud variable...»