42
5
1 3
0011 0010 1010 1101 0001 0100 1011
§4.1 文本信息加工
4.1.1文字及其处理技术
42
5
1 3
0011 0010 1010 1101 0001 0100 1011
问题一:汉字起源于哪一种文字?
答案:汉字起源于象形文字
42
5
1 3
0011 0010 1010 1101 0001 0100 1011
云南 纳西族 东巴文字
猜猜看,上面的象形文字究竟表示什么意思?
42
5
1 3
0011 0010 1010 1101 0001 0100 1011
任务一:体验东巴文字
东巴文字——现代活着的象形文字。 东巴文被称为目
前世界唯一存活着的象形文字,是人类社会文字起源
和发展的“活化石”。
42
5
1 3
0011 0010 1010 1101 0001 0100 1011
一、体验文字处理技术
1.文字是人类为了更加流畅地表述意义、传递经验而发明的工具。
甲骨文 殷周时代
金文 西周、春秋
战国文字 春秋战国
小篆 秦朝
隶书 秦朝
楷书 东汉
行书 南北朝
草书 西汉
印刷字体 宋朝
本示意图为非专业人士绘制,如
有讹误,请批评指正,谢谢!
42
5
1 3
0011 0010 1010 1101 0001 0100 1011
2.汉字的创造饱含民族的智慧
汉字起源于象形文字,至今仍然保留了象形文字的特点。
汉字的造字法有四种:象形、指事、会意、形声。
从字体上看,就是本字倒过来。上部
为树头,下部为树梢,在树梢上加一
小横,就表示这里是树梢。因此,末
的最初的意义是树梢。
象形
指事
金文「明」为日月幷照之会意字。 会意
形声 形声字的一部分是“形旁”表示字义,一部分是“声旁”表
示读音,如:“鸽”是“鸟”形“合”声,“河”是“水”
形“可”声。
42
5
1 3
0011 0010 1010 1101 0001 0100 1011
3. 书法是一种凝结了我国民族文化精髓的特殊的艺术形式
兰亭集序(局部) 晋·王羲之
42
5
1 3
0011 0010 1010 1101 0001 0100 1011
徐冰—方块英文
将26个字母改造成类似中国汉字的偏旁部首 Art For The People
42
5
1 3
0011 0010 1010 1101 0001 0100 1011
历史上使用的文字处理技术
手写 刻字 雕版印刷 活字印刷 机械式
打字机
计算机
文字处理
计算机文字处理
只能处理英文
可处理包括象形文
字在内的任何文字
如何在计算机中处理汉字?
42
5
1 3
0011 0010 1010 1101 0001 0100 1011
计算机文字处理技术发展
只能处理拉丁字母
以及一些控制符号
过
去
可处理包括象形文
字在内的任何文字
现
在
ASCII码(美国标准信息交换码),可以表示128个字符
GB2312(1980年)一共收录了7445个字符
Big5(1984), 一共收录了13060个字符
GBK1.0 (1995),收录了21886个符号
GB18030 (2000),收录了27484个汉字和主要的少数民族文字
Unicode( 1994,统一码、万国码),它为每种语言中的每
个字符设定了统一并且唯一的二进制编码,以满足跨语言、
跨平台进行文本转换、处理的要求。
小结: 从ASCII、GB2312到GBK1.0、GB18030 ,这些编码方法是向下兼
容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更
多的字符。在这些编码中,英文和中文可以统一地处理。
42
5
1 3
0011 0010 1010 1101 0001 0100 1011
任务二:使用字符编码器
42
5
1 3
0011 0010 1010 1101 0001 0100 1011
汉字的编码
输入码
(外码)
机内码
(内码)
输出码
(字型码)
用于输入汉字的编码
用于存储汉字的编码
用于输出汉字的编码
字模16×16,24×24
宋体、楷体、隶书等
区位码 :6625
全拼编码:chun
五笔字型:dw
春
用机内码
表示、存储
如国标码(GB)和BIG5码
用汉字字型
输出汉字
(音码、形码、混合码)
智能ABC,五笔字型等
宋体 楷体
春
42
5
1 3
0011 0010 1010 1101 0001 0100 1011
汉字的编码
• 输出码(字型码):
字模(点阵、向量)
●
● ● ●
●
●
●
●
● ●
●
●
→ 00010000
→ 00010000
→ 11111110
→ 10010010
→ 11111110
→ 00010000
→ 00010000
→ 00010000
● ● ● ●
●
●
●
●
● ● ●
●
● ● ●● ● ● ● ● ● ●
●●
●
储存这个字型码需要8×8=64位二进制,
即8个字节(1字节=8位二进制)
42
5
1 3
0011 0010 1010 1101 0001 0100 1011
任务三:
学习使用TrueType 造字程序
问题情境:有位同学的名字里有个 字,班主任在录入
学生名单时,怎么输也输不出这个字,你能帮他解决这个问题
吗?
利用造字程序设计自己的艺术签名
42
5
1 3
0011 0010 1010 1101 0001 0100 1011
体验现代网络流行文字
“槑”字由两个“呆”组成,于是在网络语言里被用来形容人很呆,很傻,很天真。
42
5
1 3
0011 0010 1010 1101 0001 0100 1011
体验现代网络流行文字
訡迗媞情亽兯
烎、奣、嘦、勥、巭、嫑、恏、兲、氼、忈、炛
-~⊙ ō⊙ ~-
窩懓絡絡
火星文
42
5
1 3
0011 0010 1010 1101 0001 0100 1011
任务四:火星文输入
42
5
1 3
0011 0010 1010 1101 0001 0100 1011
问题情境:丁丁是高一(8)班长,开学时要安排值日表,丁
丁的计算机基础较好,于是就想通过电脑编制这个表格,以后
修改更方便。可是,在他输入学生姓名的的时候,碰到了几个
姓名怎么输也输不进去,你能帮他解决这个问题吗?
42
5
1 3
0011 0010 1010 1101 0001 0100 1011
体验文字处理技术
汉字的编码
文字
及其
处理
技术
输出码(字型码)—汉字的输出
机内码(内码)——汉字的存储
输入码(外码)——汉字的输入
书法是一门凝结了我国民族文化精髓的艺术
汉字的创造饱含民族的智慧
文字的发明是为了更流畅地表述意义、传递经验
中文信息处理技术发展历史
课堂
小结
(教学重点)
(教学难点)