unicode码 unicode编码转换工具

作者：生活百科 • 更新时间2024-07-03 09:00:51 •阅读 1

Unicode是什么???

Unicode也就是统一码。

统一码，也叫万国码、单一码（Unicode）是计算机科学领域里的一项业界标准，包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发，1994年正式发布1.0版本，2020年发布13.0版本。

统一码的特点：

Unicode计划使用了17个平面，一共有17*65536=1114112个码位。在Unicode 5.0.0版本中，已定义的码位只有238605个，分布在平面0、平面1、平面2、平面14、平面15、平面16。其中平面15和平面16上只是定义了两个各占65534个码位的专用区（Private Use Area），分别是0xF0000-0xFFFFD和0x100000-0x10FFFD。

平面0也有一个专用区：0xE000-0xF8FF，有6400个码位。平面0的0xD800-0xDFFF，共2048个码位，是一个被称作代理区（Surrogate）的特殊区域，代理区的目的用两个UTF-16字符表示BMP以外的字符。

以上内容参考：

什么是Unicode(统一码)?

Unicode给每个字符提供了一个唯一的数字，

不论是什么平台，

不论是什么程序，

不论是什么语言。

基本上，计算机只是处理数字。它们指定一个数字，来储存字母或其他字符。在创造Unicode之前，有数百种指定这些数字的编码系统。没有一个编码可以包含足够的字符：例如，单单欧州共同体就需要好几种不同的编码来包括所有的语言。即使是单一种语言，例如英语，也没有哪一个编码可以适用于所有的字母，标点符号，和常用的技术符号。

这些编码系统也会互相冲突。也就是说，两种编码可能使用相同的数字代表两个不同的字符，或使用不同的数字代表相同的字符。任何一台特定的计算机(特别是服务器)都需要支持许多不同的编码，但是，不论什么时候数据通过不同的编码或平台之间，那些数据总会有损坏的危险。

Unicode正在改变所有这一切！

Unicode给每个字符提供了一个唯一的数字，不论是什么平台，不论是什么程序，不论什么语言。Unicode标准已经被这些工业界的领导们所采用，例如：Apple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase, Unisys和其它许多公司。最新的标准都需要Unicode，例如XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML等等，并且，Unicode是实现ISO/IEC 10646的正规方式。许多操作系统，所有最新的浏览器和许多其他产品都支持它。Unicode标准的出现和支持它工具的存在，是近来全球软件技术最重要的发展趋势。

将Unicode与客户服务器或多层应用程序和网站结合，比使用传统字符集节省费用。Unicode使单一软件产品或单一网站能够贯穿多个平台，语言和国家，而不需要重建。它可将数据传输到许多不同的系统，而无损坏。

关于Unicode学术学会

Unicode学术学会是一个非盈利的组织，是为发展，扩展和推广使用Unicode标准而建立的，Unicode学术学会设立了现代软件产品和标准文本的表示法。学术学会的会员代表了广泛领域的计算机和资讯工业的公司和组织。学术学会只由会员提供资金。Unicode学术学会的会员资格开放给世界上任何支持Unicode标准和希望协助其扩展和执行的组织及个人。

欲知更多信息，请参阅术语词汇表，Unicode产品样本，技术简介和参考资料。

Unicode

Unicode 是用两个字节表示每个字符的字符编码方案。国际标准组织 (ISO) 几乎为每种语言的每个字符和符号在 0 到 65,535 (216 – 1) 范围内定义了一个数字（再加上为将来发展保留的一些空余空间）。在所有 32 位版本的 Windows 中，部件对象模型 (COM) 都使用 Unicode，它是 OLE 和 ActiveX 技术的基础。Windows NT 全部支持 Unicode。虽然 Unicode 和 DBCS 都是双字节字符，但它们的编码方案完全不同。

Unicode其实就是支持输入的特殊字符，在ASCII范围之外，一般占1-4个字节，也可以在Windows的字符映射表里找到。如中文、俄文、日文、英文以及其他字符都可被称作Unicode

Unicode是用多少位来表示一个字的？

16位。

一到四个字节表示一个字符，utf-8是一到两个字节，为了显示亚洲的等字符，比如中文，日文，所以要用unicode，utf-8是unicode的一种。

Unicode（统一码、bai万国码、单一码）是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

扩展资料：

Unicode码扩展自ASCII字元集。在严格的ASCII中，每个字元用7位元表示，或者电脑上普遍使用的每字元有8位元宽；而Unicode使用全16位元字元集。这使得Unicode能够表示世界上所有的书写语言中可能用於电脑通讯的字元、象形文字和其他符号。Unicode最初打算作为ASCII的补充，可能的话，最终将代替它。考虑到ASCII是电脑中最具支配地位的标准，所以这的确是一个很高的目标。

Unicode影响到了电脑工业的每个部分，但也许会对作业系统和程式设计语言的影响最大。从这方面来看，我们已经上路了。Windows NT从底层支持Unicode。

参考资料来源：

Unicode详解

字符编码的问题，每个程序员都会遇到，深入探索其背后的原理和机制，能让我们少走很多弯路。

Unicode （万国码、国际码、统一码、单一码）是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码，使得电脑可以用更为简单的方式来呈现和处理文字。

Unicode发展由非营利机构统一码联盟负责，该机构致力于让Unicode方案替换既有的字符编码方案。因为既有的方案往往空间非常有限，亦不适用于多语环境。

统一码联盟在1991年首次发布了 The Unicode Standard 。

在2005年，Unicode的第十万个字元被引入成为标准之一，该字元被用于马拉雅拉姆语。

目前实际应用的统一码版本对应于UCS-2，使用16位的编码空间。也就是每个字符占用2个字节。这样理论上一共最多可以表示2的16次（即65536）个字符。基本满足各种语言的使用。实际上当前版本的统一码并未完全使用这16位编码，而是保留了大量空间以作为特殊使用或将来扩展。

最新（但未实际广泛使用）的统一码版本定义了16个辅助平面，两者合起来至少需要占据21位的编码空间，比3字节略少。但事实上辅助平面字符仍然占用4字节编码空间，与UCS-4保持一致。未来版本会涵盖UCS-4的所有字符。UCS-4是一个更大的尚未填充完全的31位字符集，加上恒为0的首位，共需占据32位，即4字节。理论上最多能表示2的31次方个字符，完全可以涵盖一切语言所用的符号。

通用字符集（Universal Character Set）是由ISO制定的 ISO 10646 （或称 ISO/IEC 10646 ）标准所定义的标准字符集。

通用字符集包括了其他所有字符集。它保证了与其他字符集的双向兼容，即，如果你将任何文本字符串翻译到UCS格式，然后再翻译回原编码，你不会丢失任何信息。

UCS包含了已知语言的所有字符。除了拉丁语、希腊语、斯拉夫语、希伯来语、阿拉伯语、亚美尼亚语、格鲁吉亚语，还包括中文、日文、韩文这样的方块文字，UCS还包括大量的图形、印刷、数学、科学符号。

ISO/IEC 10646定义了一个31位的字符集。

并不是所有的系统都需要支持像组合字符这样的的先进机制。因此ISO 10646指定了如下三种实现级别：

历史上存在两个独立的尝试创立单一字符集的组织，即：

1、国际标准化组织（ISO）于1984年创建的ISO/IEC

2、统一码联盟

统一码联盟和ISO/IEC都同意保持两者标准的码表兼容，并紧密地共同调整任何未来的扩展。

Unicode的实现方式不同于编码方式。一个字符的Unicode编码是确定的。但是在实际传输过程中，由于不同系统平台的设计不一定一致，以及出于节省空间的目的，对Unicode编码的实现方式有所不同。

Unicode的实现方式称为 Unicode转换格式（Unicode Transformation Format，简称为 UTF ）。

前面说到，Unicode采用2个字节来编码文件，但是如果一个仅包含7位ASCII字符的Unicode文件，每个字符使用2字节就浪费了一般的存储空间，其第一字节的8位始终为0，这是难以忍受。对于这种情况，可以使用UTF-8编码，这是一种变长编码，它将基本7位ASCII字符仍用7位编码表示，占用一个字节（首位补0）。而遇到与其他Unicode字符混合的情况，将按一定算法转换，每个字符使用1-3个字节编码，并利用首位为0或1进行识别。

问题来了，UTF-8变长编码格式的出现是为了节省存储空间，变长导致了UTF-8的兼容性相应降低。

类似的，对未来会出现的需要4个字节的辅助平面字符和其他UCS-4扩充字符，2字节编码的UTF-16也需要通过一定的算法进行转换。

也就是说，UTF-16是为未来准备的变长编码格式。

还有就是，在Mac和普通PC上，对于字节顺序的理解是不一致的。这时同一字节流可能会被解释为不同内容，如某字符为十六进制编码4E59，按两个字节拆分为4E和59，在Mac上读取时是从低字节开始，那么在Mac OS会认为此4E59编码为594E，找到的字符为“奎”，而在Windows上从高字节开始读取，则编码为U+4E59的字符为“乙”。就是说在Windows下以UTF-16编码保存一个字符“乙”，在Mac OS环境下打开会显示成“奎”。此类情况说明UTF-16的编码顺序若不加以人为定义就可能发生混淆。

于是在UTF-16编码实现方式中使用了大端序（Big-Endian，简写为UTF-16 BE）、小端序（Little-Endian，简写为UTF-16 LE）的概念，以及可附加的字节顺序记号解决方案，目前在PC机上的Windows系统和Linux系统对于UTF-16编码默认使用UTF-16 LE。目前在PC机上的Windows系统和Linux系统对于UTF-16编码默认使用UTF-16 LE。

在Windows XP附带的记事本，“另存为”对话框可以选择的四种编码方式除去非Unicode编码的ANSI（对于英文系统即ASCII编码），中文系统则为GB2312或Big5外，其余三种为“Unicode”（对应UTF-16 LE）、“Unicode big endian”（对应UTF-16 BE）和“UTF-8”。

UTF-8，是我们最经常看到的编码格式之一。前面已经简单介绍过，这是一种变长编码格式，变长的目的是节省存储空间。

UTF-8使用一至六个字节为每个字符编码（2003年11月UTF-8被RFC 3629重新规范，只能使用原来Unicode定义的区域，U+0000到U+10FFFF，也就是说最多四个字节）。

下面介绍其编码规则：

1、128个US-ASCII字符只需一个字节编码（Unicode范围由U+0000至U+007F）。

2、带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文等则需要两个字节编码（Unicode范围由U+0080至U+07FF）。

3、其他基本多文种平面（BMP）中的字元（这包含了大部分常用字，如大部分的汉字）使用三个字节编码（Unicode范围由U+0800至U+FFFF）。

4、其他极少使用的Unicode 辅助平面的字元使用四至六字节编码。（Unicode范围由U+10000至U+1FFFFF使用四字节，Unicode范围由U+200000至U+3FFFFFF使用五字节，Unicode范围由U+4000000至U+7FFFFFFF使用六字节）。

对上述提及的第四种字元而言，UTF-8使用四至六个字节来编码似乎太耗费资源了。但UTF-8对所有常用的字元都可以用三个字节表示，而且它的另一种选择，UTF-16编码，对前述的第四种字符同样需要四个字节来编码，所以要决定UTF-8或UTF-16哪种编码比较有效率，还要视所使用的字元的分布范围而定。

下面来看看UTF-8具体怎么编码各种类型的字符：

1、单字节编码，字节由零开始：0zzzzzzz。（z取值0或1，下同）

2、两字节编码：（110yyyyy 10zzzzzz）第一个字节由110开始，接着的字节由10开始

3、三字节编码：（01110xxxx10yyyyyy 10zzzzzz）第一个字节由1110开始，接着的字节由10开始。

4、四字节编码：（11110www 10xxxxxx 10yyyyyy 10zzzzzz）将由11110开始，接着的字节由10开始

UTF-16 是Unicode字符编码五层次模型的第三层：字符编码表。即把Unicode字符集的抽象码位映射为16位长的整数，用于数据存储或传递。Unicode字符的码位，需要1个或者2个16位长的码元来表示，因此这是一个变长表示。

Unicode的编码空间从U+0000到+10FFFF，共有1,112,064个码位（code point）可用来映射字符. Unicode的编码空间可以划分为17个平面（plane），每个平面包含216（65,536）个码位。17个平面的码位可表示为从U+xx0000到U+xxFFFF,其中xx表示十六进制值从0016到1016，共计17个平面。第一个平面称为基本多语言平面（Basic Multilingual Plane, BMP ），或称第零平面（Plane 0）。其他平面称为辅助平面（Supplementary Planes）。基本多语言平面内，从U+D800到U+DFFF之间的码位区段是永久保留不映射到Unicode字符。UTF-16就利用保留下来的0xD800-0xDFFF区段的码位来对辅助平面的字符的码位进行编码。

分平面来介绍UTF-16的实现方式：

1、第一个Unicode平面（码位从U+0000至U+FFFF）包含了最常用的字符。该平面被称为基本多语言平面，缩写为 BMP （Basic Multilingual Plane, BMP）。UTF-16与 UCS-2 编码这个范围内的码位为16比特长的单个码元，数值等价于对应的码位. BMP中的这些码位是仅有的可以在UCS-2中表示的码位.

2、辅助平面（Supplementary Planes）中的码位，在UTF-16中被编码为一对 16比特长的码元（即32bit,4Bytes），称作代理对 (surrogate pair),具体方法是：

算法可理解为：辅助平面中的码位从U+10000到U+10FFFF，共计FFFFF个，即220

=1,048,576个，需要20位来表示。如果用两个16位长的整数组成的序列来表示，第一个整数（称为前导代理）要容纳上述20位的前10位，第二个整数（称为后尾代理）容纳上述20位的后10位。还要能根据16位整数的值直接判明属于前导整数代理的值的范围（210=1024)，还是后尾整数代理的值的范围（也是210

=1024）。因此，需要在基本多语言平面中保留不对应于Unicode字符的2048个码位，就足以容纳前导代理与后尾代理所需要的编码空间。这对于基本多语言平面总计65536个码位来说，仅占3.125%.

3、Unicode标准规定U+D800..U+DFFF的值不对应于任何字符.

参考资料：

常用Unicode编码

unicode编码范围：

汉字：[0x4e00,0x9fa5]（或十进制[19968,40869]）

数字：[0x30,0x39]（或十进制[48, 57]）

小写字母：[0x61,0x7a]（或十进制[97, 122]）

大写字母：[0x41,0x5a]（或十进制[65, 90]）

汉字编码范围:\u4E00-\u9FA5

双字节字符编码范围:\u0391-\uFFE5

双字节字符编码范围

汉字unicode编码表

一般使用2w基本汉字就够了

| 字符集 | 字数 | Unicode 编码 |

| 基本汉字 | 20902字 | 4E00-9FA5 |

| 基本汉字补充 | 38字 | 9FA6-9FCB |

| 扩展A | 6582字 | 3400-4DB5 |

| 扩展B | 42711字 | 20000-2A6D6 |

| 扩展C | 4149字 | 2A700-2B734 |

| 扩展D | 222字 | 2B740-2B81D |

| 康熙部首 | 214字 | 2F00-2FD5 |

| 部首扩展 | 115字 | 2E80-2EF3 |

| 兼容汉字 | 477字 | F900-FAD9 |

| 兼容扩展 | 542字 | 2F800-2FA1D |

| PUA(GBK)部件 | 81字 | E815-E86F |

| 部件扩展 | 452字 | E400-E5E8 |

| PUA增补 | 207字 | E600-E6CF |

| 汉字笔画 | 36字 | 31C0-31E3 |

| 汉字结构 | 12字 | 2FF0-2FFB |

| 汉语注音 | 22字 | 3105-3120 |

| 注音扩展 | 22字 | 31A0-31BA |

| 〇 | 1字 | 3007 |

什么是unicode编码?

Unicode影响到了电脑工业的每个部分，但也许会对作业系统和程式设计语言的影响最大。从这方面来看，我们已经上路了。Windows NT从底层支援Unicode。

目前计算机中用得最广泛的字符集及其编码，是由美国国家标准局(ANSI)制定的ASCII码（American Standard Code for Information Interchange，美国标准信息交换码），它已被国际标准化组织（ISO）定为国际标准，称为ISO 646标准。适用于所有拉丁文字字母，ASCII码有7位码和8位码两种形式。

Unicode只有一个字符集，中、日、韩的三种文字占用了Unicode中0x3000到0x9FFF的部分 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符，比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来表示，为了与十进制区分，十六进制以0x开头，0x7ECF转换成十进制就是32463,UCS-2用两个字节来编码字符，两个字节就是16位二进制， 2的16次方等于65536,所以UCS-2最多能编码65536个字符。编码从0到127的字符与ASCII编码的字符一样，比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码，事实上Unicode对汉字支持不怎么好，这也是没办法的，简体和繁体总共有六七万个汉字，而UCS-2最多能表示65536个，才六万多个，所以Unicode只能排除一些几乎不用的汉字，好在常用的简体汉字也不过七千多个，为了能表示所有汉字，Unicode也有UCS-4规范，就是用 4个字节来编码字符

例：

什么是unicode码，它有什么特点

Unicode依照通用字符集（Universal Character Set）的标准来发展，同时也以书本的形式[1]对外发表。Unicode至今仍在不断扩增，每个新版本都加入更多新的字符。目前最新的Unicode第六版，除了已纳入超过十万个字符（Unicode的第十万个字符在2005年获采纳，且认可成为标准之一），还包含可用作视觉参考的代码图表、编码方法、标准的字符编码，以及记录了如大小写字母等字符特性的列表这些数据。负责监督Unicode发展的非营利机构统一码联盟，致力于让Unicode编码方案取代既有的字符编码方案，因为后者往往仅有有限的空间，亦不适用于多语环境。Unicode备受认可，并广泛地应用于电脑软件的国际化与本地化过程。有很多新科技，如可扩展置标语言、Java编程语言，以及现代的操作系统，都采用Unicode编码。

特点是全世界字基本全包括

尤文本周重启训练尤文图斯历史50大巨星

海虹肉怎么做才好吃(海虹肉怎么做才好吃

unicode码 unicode编码转换工具

Unicode是什么???

Unicode是用多少位来表示一个字的？

Unicode详解

常用Unicode编码

什么是unicode编码?

什么是unicode码，它有什么特点

友情链接百度权重≥5符合友链交换

联系我们

unicode码 unicode编码转换工具

Unicode是什么???

Unicode是用多少位来表示一个字的？

Unicode详解

常用Unicode编码

什么是unicode编码?

什么是unicode码，它有什么特点

相关推荐

友情链接 百度权重≥5符合友链交换

联系我们

友情链接百度权重≥5符合友链交换