HTML 字符集


要正确显现一个 HTML 页面,浏览器有必要知道要运用的字符集(字符编码)。


HTML 字符集

在 HTML 中,正确的字符编码是什么?

HTML5 中默许的字符编码是 UTF-8。

这并非总是如此。前期网络的字符编码是 ASCII 码。

后来,从 HTML 2.0 到 HTML 4.01,ISO-8859-1 被认定为规范。

跟着 XML 和 HTML5 的呈现,UTF-8 也总算到来了,处理了很多的字符编码问题。

下面是关于字符编码规范的简略概述。


在开端的时分:ASCII

计算机信息(数字、文字、图片)在电子中是以二进制 1 和 0(01000101)进行存储的。

为了规范字母数字字符的存储,创建了 ASCII(全称 American Standard Code for Information Interchange)。它为每个存储字符界说了一个共同的二元 7 位数字,支撑 0-9 数字,大/小写英文字母(a-z、A-Z)和一些特别的字符,比方 ! $ + - ( ) @ < > 。

因为 ASCII 运用一个字节(7 位表明字符,1 位表明传输奇偶操控),所以它只能表明 128 个不同的字符。这些字符中有 32 个被保存作为其他操控意图运用。

ASCII 的最大的缺陷是,它排除了非英文字母。

ASCII 今日仍然在广泛运用,尤其是在大型计算机体系中。

如需深化了解 ASCII,请检查完好的 ASCII 参考手册


在 Windows 中:ANSI

ANSI(也称为 Windows-1252),是 Windows 95 及其之前的 Windows 体系中默许的字符集。

ANSI 是 ASCII 的扩展,它加入了世界字符。它运用一个完好的字节(8 位)来表明 256 个不同字符。

自从 ANSI 成为 Windows 中默许的字符集,一切的浏览器都支撑 ANSI。

如需深化了解 ANSI,请检查完好的 ANSI 参考手册


在 HTML 4 中:ISO-8859-1

因为大多数国家运用 ASCII 以外的字符,在 HTML 2.0 规范中,默许的字符编码更改为 ISO-8859-1。

ISO-8859-1 是 ASCII 的扩展,它加入了世界字符。与 ANSI 相同,它运用一个完好的字节(8 位)来表明 256 个不同字符。

Note 当浏览器在网页中检测到 ISO-8859-1 时,一般默许为 ANSI,因为除了 ANSI 有 32 个额定的字符这一点,其他方面 ANSI 根本等同于 ISO-8859-1。

假如 HTML 4 网页运用了不同于 ISO-8859-1 的字符集,则需要在 <meta> 标签中指定,如下所示:

实例

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

Note

HTML5 中默许的字符集是 UTF-8。
一切的 HTML 4 处理器都支撑 UTF-8,一切的 HTML5 和 XML 处理器都支撑 UTF-8 和 UTF-16。

如需深化了解 ISO-8859-1,请检查完好的 ISO-8859-1 参考手册


在 HTML5 中:Unicode(UTF-8)

因为以上所列的字符集是有限的,在多言语环境中是不兼容的,所以 Unicode 联盟(Unicode Consortium)开发了 Unicode 规范(Unicode Standard)。

Unicode 规范覆盖了(简直)一切的字符、标点符号和符号。

Unicode 使文本的处理、存储和运送,独立于渠道和言语。

HTML5 中默许的字符编码是 UTF-8。

如需深化了解 Unicode(UTF-8),请检查完好的 Unicode 参考手册