第三千零七十章 万事具备,恰遇东风
第三千零七十章 万事具备,恰遇东风 (第1/2页)光有这个协议是不够的,要将之推广开,就需要一个非常适合的应用场景。
嵌入个人操作系统,是最好的选择,于是就产生了瀚文大字库,这个字库以其优异卓越的性能,可以分级使用的灵活配置,能够满足从日常家用电脑到专业级图书出版社的使用,得到了微软的青睐。
再往上一层就是扩展应用,这一层的产品包括了给各种专业设备如打印机,彩印机,排版系统,通信设备所使用的软硬件升级套餐。
硬件中包括了字库芯片,汉卡;软件里包含了输入法,编辑软件,汉化工具包等等。
如果不是一开始周至就将和汉字编码相关的这一系列问题予以了全局性的考虑,麦明东可以想象得到,哪怕以瀚文字库如此优越的性能,在推广当中也会遇到诸多的麻烦,每一道坎,都可能让瀚文大字库最后和许多所谓“科研成果”一般,成为束之高阁的的东西。
要按照“正常”的方式来,恐怕直到现在瀚文字库都还会处在艰难的推广阶段,不可能成为全世界默认的惟一通用字库软件。
“亚洲区统一编码现在被证实命名为UTF-8编码,命名大会下周会在首都召开,由UNICODE组织在会后对外证实公布。”麦明东说道:“这是中国对世界信息产业做出的一项巨大贡献,也是中国在信息学层面将传统文字融入到信息时代的最完美,最成功的案例,你的贡献很大,这一次可不能缺席了。”
“他们是要和信息交换标准委员会打擂台,故意造出这么大的声势,我就不去给他们助兴了吧?”周至笑道。
“我其实一直有一个问题。”麦明东想了一下,还是决定问出来:“你在搞瀚文大字库的时候,就已经考虑好了后来基于UNIX系统研发出来的COS和MiniCOS了?”
UTF是UnicodeTransformationFormat的缩写,意为Unicode转换格式。
8代表的是八比特,也就是四个字节,意味着UNICODE字符由4个字节表示。因为UTF是一种变长的编码,因此这个8其实指的是编码规则的比特上限,其实大多数的UNICODE字符用不到这么长的字节数,
传统的信息系统基本采用的是最知名可能要数被称为ASCII的7位字符集。它是AmericanStandardCodeforInformationInterchange的缩写,意为北美信息交换标准码,本身是米国英语通信所设计的。
因为是针对英语设计的,别说处理汉字,就连处理带有音调标号的几种欧洲文字时都就会出现问题。
为了表示更多字符,人们打起了校验码的主意,让最高位也用作字符表示,这就是ASCII码扩字符集。
一种扩展是把值为128-255之间的字符用于画图和画线,以及一些特殊的欧洲字符。另一种扩展是把位于128-255之间的字符用于拉丁字母表中特殊语言字符。
随着信息技术在全世界各个国家的发展,这种修修补补的方法,其局限性就彻底暴露了出来。
作为脱离传统打字机的后生事物,UTF-8代表着信息技术新时代,即网络时代和无线通信时代的先进编码。
除了字符数量可以几乎不受约束地编制之外,它还可以通过屏蔽位和移位操作快速读写,也可以使排序变得更加容易。
但是UTF-8也不是一点问题都没有,比如目前的部分系统如ISO2022,4873,6429和8859,会将UTF-8超过百分之五十使用率的码值100xxxxx解读成C1控制码,导致被过滤或者解读出错。
(本章未完,请点击下一页继续阅读)