海图讲坛·万物课堂 | 计算机是如何“识字”的

1天前 (11-13 04:28)阅读2回复0
wsygfsj
wsygfsj
  • 管理员
  • 注册排名5
  • 经验值52240
  • 级别管理员
  • 主题10448
  • 回复0
楼主

过往,你可能见过文档中跟此外字格格不进的“孤寡”文字,翻开过满是“锟斤拷”的txt小说,看到过因为村名中有一个电脑打不出来的生僻字而招致全村无法打点第二代身份证的新闻......那些问题都是因为中文呈现乱码招致的。要想晓得什么是乱码,需要先从计算机编码的规则说起。

我们对编码的最后接触来源于谍战剧。在谍战剧中,发报员先通过一种体例,将想要发送的谍报转成电报的滴答声,然后用电键发出犬牙交错的电码,收报员在听到电报机发出的滴答声后,再将它们翻译成一般的文字。

就像电报只能发出"滴"和"答"声一样,计算机也只熟悉0和1那两个字符,为了让计算机“识字”,我们就需要将文字用0和1暗示出来。那么若何将文字编码,让计算机能够“熟悉”呢?

上世纪 60 年代,美国提出“美国信息交换尺度代码”ASCII,那套代码总共收录了 128 个字符。我国 1980年公布的《GB 2312-80 信息交换用汉字编码字符集 根本集》中包罗了 6763 个常用简体汉字。显然ASCII那套代码对汉字来说底子不敷用。所以GB 2312 那套字符集用两个字节长度来编码一个字符,如许理论上就能够包容 个即 65536 个字符。

但那个字符集只包罗最常用的汉字,像“喆”“頫”“旻”“祎”那些人名中的常见字都不包罗在内。后期在优化过程中制定了GBK字符集,胜利地将一些繁体字包罗在内。

跟着计算机在全球敏捷普及,各类字符编码已经陷进紊乱。为了彻底处理那个问题,国际尺度化组织于1994年推出同一码(Unicode)。

那小我类编码界的巴别塔收录了 25 种文字,两万八千多个字符,此中就包罗了 GB 2312 中的六千多个简体字。那套庞大的字符集有良多种编码体例,文档软件里的 UTF-8,UTF-16,UTF-32 等,都是把 Unicode 字符集中的字符,转换成二进造信息的编码体例。

在中文世界里,GBK 和 Unicode都有良多的利用者。上文中提到的“锟斤拷”那串乱码源自于GBK字符集和Unicode 字符集之间的转换问题。既然利用二进造有些“反人类”,为什么计算时机抉择利用二进造呢?计算机和二进造谁产生的时间更早一些呢?二进造和《易经》中的伏羲六十四卦方位图又有什么奇异的关系呢?

今天邀请北京科学中心主题尝试室项目负责人冯淑娟在线上为各人带来《二进造与计算机》讲座,她将从德国哲学家、数学家莱布尼茨创造二进造的故事进手,率领各人领会计算机摘用二进造的原因以及二进造到十进造的换算过程。

【主讲嘉宾简介】

冯淑娟,北京科学中心主题尝试室项目负责人,第七届全国科技馆辅导员大赛华北赛区选拔赛教育资本包项目一等奖、第三届北京科学传布大赛“科技辅导员”角逐二等奖;设想研发的科普课程活动在多个评选中获奖。

0
回帖

海图讲坛·万物课堂 | 计算机是如何“识字”的 期待您的回复!

取消