国土名片】古彝文渊|基于字形拆分的彝文形码输入方案设计(作者:胡淇研,赵小兵

2024-03-13 15:43 《百色学院学报》  主页 > 名片 > 世界美丽名片 > 多样世遗 > 母语保护 > 古彝文渊 >

打印 放大 缩小





基于字形拆分的彝文形码输入方案设计
 
《百色学院学报》2021年2期
 
作者:胡淇研,赵小兵
 
(1.中央民族大学,北京 100081;2.国家语言资源监测与研究少数民族语言中心,北京 100081)
 
彝族是我国历史悠久的少数民族之一,其人口众多,在我国少数民族人口中居第六位,主要分布在四川、云南、贵州和广西一带。彝族有自己的语言和文字,彝语属于汉藏语系藏缅语族彝语支语言,分为6 大方言,5 个次方言和40 多个土语。彝文主要流传于北部、东部、南部和东南部方言区,西部方言区历史上曾流传过彝文,现已失传。中部方言区尚未发现使用彝文的史料。[1](P29-36)不同历史时期、不同地方的彝文称谓不同,汉文史志称彝文为“爨文、韪书、夷文、倮文、罗文、蝌蚪文、毕摩文、倮倮文”等,新中国成立后统称为彝文。彝文可分为古彝文和凉山规范彝文(以下简称“规范彝文”),古彝文又称老彝文或传统彝文,是对1980 年国务院批准实行的规范彝文之前刻画、手写彝文的总称。规范彝文是表音的音节文字,以彝语北部方言圣乍话为基础方言,以喜德语音为标准音,共有1165 个字符,包括819 个常用字符,345 个次高调字符和1 个替音符号“ꀕ”。[2]
 
一、彝文输入法研究现状
规范彝文当前已完成编码字符集构建、字型、键盘及输入法开发等工作,获得了国家和国际编码标准,开发了比较成熟的输入法,主要有沙氏彝文输入法、阿才彝文输入法、搜狗输入法、Vista 系统自带的输入法及彝文手机输入法等。沙氏彝文输入法包括彝文简拼、全拼及笔画输入码。全拼码以彝文注音符号为编码方式,击键次数多达5 键,无重码;简拼码以读音为主,用拼音或拼音代码为输入码,最多4 键即可完成输入;笔画码按彝文书写顺序拆分字符笔画,并将其映射到键盘的英文字母或数字键上,以笔画实现输入。[3](P46-48)阿才及Vista 系统自带的彝文输入法采用全拼音码编码方式,实现中文、彝文、数字、符号自由混合输入。搜狗彝文输入法以全拼音码输入为主,可实现彝汉混输。2016 年,民族语文翻译局开发了运用到安卓和iOS 系统上的彝文手机输入法,实现了彝文笔画、简拼、全拼输入。
 
古彝文输入法主要有楚雄彝文输入法、石林彝文输入法、古彝文正体字形码输入法、古彝文笔画及自由拆分一对多形码输入法等。楚雄彝文输入法是以彝文中部和东部方言区常用的9447 字符为基础开发的字根形码输入法,对彝文字符进行字根拆分,按字符结构编码,以“形托”方式实现字根到键盘的映射,实现4 键输入;石林彝文输入法以《彝汉简明词典》东南部方言撒尼彝语常用字符为基础设计的彝文字根式输入法,以4 键实现输入;古彝文正体字形码输入法以《彝文字典》《彝文字集》及经典文献中收录的5363 个古彝文常用字符为基础设计的形码输入法。[4]此外,西南民族大学民族文字信息处理研究所设计了彝文笔画和拼音输入法;王成平以《滇川黔桂彝文字典》中2676 个字符为蓝本设计了古彝文笔画输入法;云南民族大学王嘉梅以四川彝文、云南规范彝文、贵州彝文及滇南彝文字集为基础,设计了彝文数字和自由编码方案,实现了“云南规范彝文数字键笔画自由拆分、滇南彝文自由拆分一对多形态编码输入法”。
 
目前,彝文输入法研究取得了较大的成绩,但由于彝文内部情况复杂,仍存在规范彝文和古彝文外码编码标准不统一、输入规则不一致,输入法不够通用等问题。用户输入时需要反复学习各地彝文的输入规则,多次安装不同地区的彝文输入法,增加了使用难度。鉴于此,笔者在前人研究的基础上,以规范彝文为例,提出一种基于字形部件拆分的形码编码方案,希望能为彝文输入法的研究提供一种参考方案。
 
二、输入方案设计
彝文独体字多,常采用字体结构易位、增添笔画等方法来造字,其构字体系包括:笔画、部首、笔顺和书写结构。[5]彝文文字发展过程中呈现高度的线条化和抽象化发展趋势,部首的表意功能较弱,主要作为字符构字的主干笔画或基础构件。[6]因此可依据直观、易学、易操作的原则,对彝文进行构形层面的部件拆分,整理出稳定的构字部件,并进行合理的分类编码,设计适用于古彝文和规范彝文的一对多形码输入方案。
 
(一)部件拆分
彝文部件是由笔画组成的具有组配彝文字形功能的构造单位,是字符构字的核心,介于整字和笔画之间。笔画则是字符书写时不间断地写成的点和线,是字形结构中的最小单位。[7]彝文部首一般是字符的主笔画或突出笔画,常作为字符构字的稳定部件。规范彝文分为26 个部首,包括54 个基本构件。从规范彝文819 个常用字符部首统计发现,꒓部字符最多,约占8.5%;꒔部次之,约占8%;∨,∩,꒦,꒥,꒷,△,꒯,꒶,꒺,꒽,꓂,꒹部字符较少。部首꒔,꒨,꒟,ꁐ,ꎫ,꒜,ꏂ,ꉙ,꒚,ꑘ,ꊱ,ꁊ,꒺,꓂能独立成字,表示完整的意义,作为稳定的构字部件。
 
部件分类时以已有的彝文部首分类标准为参考,兼顾字符构造理据,遵循字符构形的整体性及输入编码的便捷性原则,对于可独立成字且用于古彝文和规范彝文中构字能力强的部首不拆分;构字能力弱的部首进行拆分合并,如“꓄”部,规范彝文中有17 个字符,在古彝文中不做构字部件,拆分为“꒐”和“─”;“꓆”部,规范彝文中有7 个字符,古彝文中有类似的部首“”,为方便编码,拆分为“꒐”和“꒐”;部件“,,,,─”在古彝文作为字符构件使用频率高,构字能力较强,视为独立的构字部件。依据该部件分类标准,整理出稳定的构字部件,部件分类如表1 所示。
 
(二)编码分类
根据各部件字符数量分布的多少及字符构形特征,将规范彝文的基本构字部件分为26 个大类并进行编码。编码分类时,主要依据部件与英文大小写字母的形近性原则进行一对多编码映射。如部件“꒐、꒒、꒟、꒘、꒕、꒼、꒚、∨、꒤”分别与大写英文字母“I、L、C、W、N、X、S、V、U”外形相似,映射到相应的英文字母上;“꒱、、、、꒳”与小写英文字母m 外形相似,映射到M 键上。少数与英文字母外形不具有相似性的部件,可借用汉字笔形读音映射方式,如部件“匚,꒠”视为框形,映射到K 键上;“、、、”视为汉字“撇、捺”的变形部件,映射到P 键上。
 
编码时,不区分基本部件的朝向、大小和方向,将形变、形近及方向倒置类部件放在同一键位上。如“꒥、꒦、꒷、꒵”几个部件可视为由同一个部件变形而来,放在Y 键上;部件“꒡、⌒、꒟”外形相似,朝向不同,放在C 键上;部件“─、、-”朝向一致,大小不同,映射到T 键上;部件“꒐、”不区分大小,映射到I 键上。后期可依据该分类标准将古彝文的基本构字部件依次归入该编码分类表中,从而实现古彝文和规范彝文编码的统一分类。部件编码分类映射表如下:
 
 
 
表1 部件编码分类映射表
 
(三)编码原则
彝文有上下、左右、左中右、上中下、半包围、全包围、交叉及单一结构。规范彝文中上下结构的字符居多,约为50%;左右结构次之,约为24%;交叉结构约为14%;单一结构的字符数最少,约为1.2%。主要采用先主笔后副笔,先上后下,先左后右,先中间后两边,先外后内的书写顺序。
 
字符编码时依据字符的书写笔顺对字符进行全码编码,如字符“ꁘ”书写顺序为先竖后撇捺,编码为IX;字符“ꅔ”书写笔顺是先外后内,编码为BI。为简化编码,对于重复部件,采用“部件字母+重复次数”的方式编码,如字符“ꐈ”编码为I4。字符“ꃍ”编码为BT4;因次高调符号“”与电脑键盘主键区数字符号键6 上的“^”外形相似,编码时在规范字编码之前加“^”表示,如字符“ꇘ”编码为^S。
 
输入法实现时,可不规定基本部件的键入顺序,允许用户自由组合输入,实现一对多形码编码映射,由程序实现自动匹配。如字符“ꒉ”的输入编码可为IC 和CI;“ꈎ”的输入编码可为“CIT,CTI,ICT,ITC,TCI,TIC”6 种;“ꈓ”的输入编码为“LZT,LTZ,ZTL,ZLT,TLZ,TZL”6 种。
 
三、性能与优势分析
国家标准将编码层次和软件层次视为统一的键盘输入系统进行性能考核。GB/T 19246-2003《信息技术通用键盘汉字输入通用要求》提出了通用键盘汉字输入系统的性能指标包括两个方面:编码层次上要求形码编码输入法应该遵循汉字部件和笔画规范,达到定性指标(易学性);软件层次上要求达到量化指标(平均码长、重码字词键选率)。[8]笔者从定性和定量指标统计分析发现,该方案字符部件拆分规则合理,编码原则简单易学,输入平均码长适中,重码率低,输入效率较高。
 
(一)易学性
易学性,即“字符输入系统的时间应尽量短,并符合使用者的思维习惯”[9]。该方案主要依据彝文的构形特点,对字符进行部件拆分。部件拆分时遵循已有的部首分类原则,拆分合理,归类科学,符合彝文字符部件规范,能有效减少彝文字符的构字单位,便于编码和学习;此外,采用一对多部件编码方式,不要求使用者熟悉彝文字符读音,字符输入时无须认读,允许用户按部件自由组合输入,由程序实现自动匹配,降低了使用者的记忆难度。普通用户只需很少的学习时间,即可掌握规则并进行文字输入,易学性较强。
 
(二)平均码长
该方案对字符进行全码编码,平均码长可作为输入效率高低的参考指标。《信息技术通用键盘汉字输入通用要求》(GB/T 19246—2003)规定:汉语拼音或简易笔画编码方式输入汉字常见文本时,平均码长应<3.2;双拼、部件编码或以部件为主的编码输入,平均码长应<2.2。该方案平均码长计算如下:
 
 
 
表2 字符编码码长分布表
 
 
 
从表2 可以看出,该方案平均编码码长约为3.1,码长适中。码长为3 键元和4 键元字符的分布率最高。因而字符输入时,击键次数较少,输入速度较快。
 
(三)重码分布
重码率是衡量一个编码方案中具有相同编码的字符多少的指标,可用作衡量输入法输入效率的定量指标。[10]测试发现,该方案的重码率相对较低,输入效果较好。重码分布表如下:
 
 
 
表3 字符重码分布表
 
从表3 可以看出,该编码方案下,规范彝文819 个常用字符中无重复编码的字符数为554 个,占67.6%,即有554 个字符输入时可实现与目标字符的精确匹配;字符编码最高重复次数不超过5 次,即字符输入时均不需要翻页查找即可实现与目标字符的匹配。因而,该输入方案对字符的精确匹性较好,重码率较低,输入较为快捷。
 
(四)优势
本文依据彝文字符构形特征设计了一对多形码输入方案,字符输入时,不受字符读音的限制,允许用户按部件自由组合输入,编码规则简单易学,能较好地迁移到古彝文及其他象形文字上使用,实用性强,适用范围广。
 
(1)实用性强。彝文内部情况复杂,字符量大,异体字、生僻字多,字符存在方言区读音和形体差异。采用字形编码输入,可不受字符读音的限制,能迁移到古彝文及他少数民族象形文字上编码使用;此外,采用一对多映射的编码方式,不完全要求按字符书写顺序输入字符,用户可按部件自由组合输入,降低了学习难度,即使不熟彝文的用户也能快速掌握,实用性较强。
 
(2)适用性广。古彝文是超方言的表意文字,字形独特,其构字部件大多与规范彝文相同或由其方位倒置或变形而来。字符书写笔画多样,除有规范彝文中的点、横、竖、撇、捺、折、圆、弧形、曲形、框形等基本笔形外,还有丰富的连体、绕形、波浪及重叠变形笔画。字符构字笔画少则1 画,多则10 画以上。该方案按部件拆分方式对字符进行分类编码,能保持彝文字形的全面性和系统性,避免了对字符进行过度拆分,有效地减少了字符的构字单位,便于实现计算机字符的编码和输入。其次,依据形码编码方式输入字符,不受彝文方言区读音差异的影响,不仅适合规范彝文字集编码,也能用于大字符集的古彝文编码,适用范围更广。
 
四、结 语
彝文内部情况复杂,但有共同的字符结构、部首、笔画、笔顺及稳定的部件构字体系。本文依据彝文的字形特点,参考已有的部首分类标准,遵循直观、易学的原则,对规范彝文字符进行部件拆分。部件拆分时,考虑到彝文字符构形的整体性及输入编码的便捷性,保留了规范彝文中的独体字及构字能力强的部首,拆分合并构字能力弱的部首,拆分规则合理,符合彝文字符的构字规律。在此基础上,按形似性特征实现字符的一对多编码映射,设计一对多部件形码输入方案。从已有的统计数据来看,该方案编码规则简单易学,平均码长适中,重码率低,输入效率高,适用范围较广,具有较好的实用性。此外,本文采用部件编码输入方式,便于实现计算机字符输入,有助于推进古彝文和规范彝文编码的统一,为古彝文信息化发展提供条件,符合当前彝文信息化发展的要求。

责任编辑:天下口碑

---国土名片网版权所有---