• 文本分成两种,一种叫做纯文本,还有一种叫做富文本
  • 纯文本中只能保存单一的文本内容,无法保存内容无关的东西(字体、图片、颜色......)
  • 富文本中可以保存文本以外的内容(word文档)
  • 在开发时,编写程序使用的全都是纯文本!
  • 纯文本在计算机底层也会转换为二进制保存,

将字符转换为二进制码的过程,我们称为编码
将二进制码转换为字符的过程,我们称为解码
编码和解码时所采用的规则,我们称为字符集

  • 常见的字符集:

ASCII

  • 美国人编码,使用7位来对美国常用的字符进行编码
  • 包含128个字符

IOS-8859-1

  • 欧洲的编码,使用8位
  • 包含256个字符

GB2312
GBK

  • 国标码,中国的编码

Unicode

  • 万国码,包含世界上所有的语言和符号,编写程序时一般都会使用Unicode编码
  • Unicode编码有多种实现,UTF-8(1-5个字节表示字符) UTF-16(2-4个字节表示字符) UTF-32(4个字节表示字符)
  • 最常用的就是UTF-8
  • 乱码

编写程序时,如果发现程序代码出现乱码的情况,就要马上去检查字符集是否正确