1.制定《通用規範漢字表》的意義
中國現代漢字的規範化是在20世紀上半葉醞釀的。新中國成立後,在國務院的直接領導下,這項工作開創了嶄新的局面。自20世紀50年代以來,國務院語言文字主管部門和其他有關部門先後發布了多項漢字規範,初步實現了社會用字的規範化,促進了我國教育、文化和科技的發展。近20年來,隨著國家現代化和信息化的快速推進,漢語語言生活發生了巨大變化。語言文字規範與社會發展和人民生活聯系的廣度和深度是前所未有的。在新的時代和形勢下,過去的規範已經不能完全適應現代語言生活的需要。因此,重新審視以往的漢字標準化工作,制定新的可行的規範是非常必要的。
《通用規範漢字表》的制定是為了適應國家信息化發展的需要。世紀之交,中國實施創新型國家戰略,信息化成為實現這壹目標的重要支撐。語言文字標準化是國家信息化的基礎。只有以規範的漢字為傳播載體,才能保證信息傳播的速度和可靠性。
通用規範漢字表是為適應當代語言生活的需要而制定的。隨著科學技術的發展和教育水平的提高,科技術語的用詞範圍不斷擴大,並迅速進入日常生活。印刷業告別了“鉛火時代”,激光照排成為出版的主要手段。計算機廣泛應用於古籍整理和詞典編纂。計算機字體缺字、錯別字直接影響印刷、出版和信息傳播的質量和社會效益。在社會生活中,政府部門和服務行業(如戶籍、郵政、金融、保險)的信息存儲和檢索已經數字化。姓氏、地名中的不規範、生僻字影響了很多行業的信息系統建設和政府的社會管理,也給壹些相關人員的日常生活帶來了極大的不便。制定適應現代語言生活的漢字規範,已成為關系人民生活和廣大人民群眾需求的大事。
《通用規範漢字表》的制定是為了適應國家語言文字法的需要。5438年6月+2000年10月頒布的《中華人民共和國通用語言文字法》規定“國家推廣普通話,推廣規範漢字”,並進壹步明確“國家機關以普通話和規範漢字為官方語言文字”,“學校及其他教育機構通過漢語文課程教授普通話和規範漢字。使用的漢語教材應當符合國家通用語言文字的規範和標準,漢字是公共服務行業的基本服務用字。這部法律的頒布,把漢字的規範納入了法律層面,需要為壹般的社會應用提供壹個明確的“規範漢字”的模式。制定詞表,整合優化現有漢字規範,消除不同規範詞表之間的矛盾,整合零散規範,明確“規範”的政策導向和法律效力,確定“規範漢字”法律概念在壹般層面的外延,使《國家通用語言文字法》所指的“規範漢字”在壹般社會的壹般層面得以實施,是保證這部法律順利實施的重要舉措。
2.制定通用規範漢字表應遵循的原則。
通用規範漢字表的制定遵循以下四個原則:
(1)註意與原有規範的銜接,保持漢字體系的基本穩定。字表的制定,既堅持了簡化漢字的基本方針,也遵循了1986國務院批準的《關於廢止簡化漢字第二方案(草案)和糾正社會用字混亂的通知》中指出的“今後對漢字簡化要慎重,使漢字形體在壹段時間內保持相對穩定”的原則。經過幾十年的實踐,現有的《第壹批異體字整理表》、《簡化字匯總表》、《常用印刷體漢字字表》、《常用現代漢字表》、《常用現代漢字表》等漢字規範值得繼承和吸收。單詞表繼承了這些規範的原則和主要內容。在詳細調查和認真分析的基礎上,充分考慮了全民的歷史習慣和社會的接受程度,本著便民利國的原則進行了必要的修改。
(二)堅持實事求是的科學精神,遵循漢字結構和演變規律。在詞表編制過程中,邀請了國內多位資深語言學家主持和參與工作,反復聽取了其他多位語言學家和相關領域專業人士的意見,註意吸收漢字和漢字史研究的最新成果,采用科學的統計方法,獲得可靠的數據;同時還廣泛吸收基礎教育、古籍整理、辭書編纂、印刷出版、計算機信息處理等部門的實踐經驗,遵循漢字構造演變規律,充分考慮漢字應用的現實,盡可能提高漢字規範化的科學性和可行性。
(三)廣泛聽取各界意見,照顧不同領域對漢字的需求。字表的制定堅持群眾路線,通過各種方式廣泛聽取廣大人民群眾的意見,特別是基礎教育、文化普及等領域反映的意見,盡量滿足不同領域、不同文化程度的群眾對漢字使用的不同要求。
(四)適當考慮臺灣省、香港、澳門地區使用漢字和國際化的需要。漢字流行於兩岸四地,也跨越國界,傳播到世界各地。詞表的制定應正視使用漢字的不同國家和地區簡繁字形並存的客觀現實,兼顧漢字使用現狀和國際化的多種需求,盡量避免擴大不同國家或地區之間漢字使用的差異,以利於相互溝通和交流。
3.通用規範漢字表的性質
漢字規範化壹直是我國新文化建設的壹項重要基礎工作。《通用規範漢字表》是《中華人民共和國通用語言文字法》的配套標準,是體現國家用字政策的主要標準。經國務院批準,由教育部和國家語委發布。
《通用規範漢字表》的說明第二條規定:“通用規範漢字表是記錄近代漢語的壹套通用規範文字,體現了近代通用漢字的數量、等級和字形的規範。”這個定義的解釋可以從以下三個方面來理解:
規範化是詞表的首要特征和本質屬性。詞表給出了確定的字數和詞級,實現了字體和用詞的標準化。表格中指定了三個級別的字符集。每壹級字集中收集的字和前綴都經過了嚴格的選擇和按規則排列,完全可以成為我國社會通用領域的漢字正字法,在字體上具有唯壹的標準作用。
現代性是單詞表的第二個特征。詞表的分類和詞匯的收集基於現代應用,收集的詞匯主要選自現代漢語語料庫,充分考慮了現代語言和寫作生活的需要。現代課文中的文言文語錄和中小學語文教材中的文言文,是當今文化傳承和學習所必需的,需要用簡化字印刷,屬於現代漢字範疇,也已列入字表。
普遍性是詞表的第三個特點。在現代社會使用的漢字領域,壹些生僻字或生僻字不需要規範。經過規範,8300字都是現代社會需要的常用字。詞表按通用程度分類:壹級詞表最通用,二級次之。三級詞表雖取自專業領域,但這些詞與國計民生的信息傳播密切相關,在計算機存儲和閱讀中也具有通用性。
4.《通用規範漢字表》發布後如何在相關領域實施?
通用規範漢字表的制定是為了方便人民群眾和各行各業更好地使用漢字。在各個領域的使用中,根據各自的特點和實際需要,可以采用既遵循規範,又有壹定靈活性的實現方法:
(1)專業古籍印刷、書法、匾額等手書,可以使用繁體字和繼承字。為了便於社會解讀,也為了印刷編輯部門有據可依,古籍印刷中使用的繁體字也應及時整理。在相關標準制定之前,建議采用歷史上使用過的漢字,即字體要有歷史使用的基礎;當有多個字形可以使用時,盡量選擇流量大、容易識別的字形;不要發明新詞或改變字體。
(2)基礎教育語文新課程標準規定小學識字量為3500個。這3500個字應該采用《通用規範漢字表》的壹級字表。但根據教學需要,當應用子集需要在3500個常用字的範圍內進行細分時,如第壹、二、三期分別要學多少個字,教育管理部門可以根據不同年齡段兒童的認知特點,以漢字的必要屬性為參數,通過科學研究,生成適用的應用字表。需要強調的是,《通用規範漢字表》只給出了宋體的標準字體,而我們的小學語文課本中1-3年級的課文和各年級的生字都是楷體,兩種字體在筆畫形狀上略有不同。在楷書字體沒有新的標準之前,還是會使用原來的楷書字體。
(3)表外的話可以根據需要使用。使用的表外字有繁體字部分的,按規定不得類推簡化。為保持體系的壹致性,確需簡化類比的,如對新的化學元素使用文字,可報國家語言文字主管部門批準。
(4)詞表公布後,如有未收錄的姓氏用字,可向國家語言文字主管部門申報,經專家審定和有關部門確認後,及時補充到詞表中。
(5)使用漢字的工業產品,特別是信息產品,應遵守漢字規範原則,不應違反字表。因為產品的更新需要壹定的周期,所以在詞表公布後,對於不符合詞表規定的產品用詞的變更可以有壹個過渡期,在此期間要積極采取措施,盡快達到國家規範。
5.通用規範漢字表中漢字分類的理據,壹、二級漢字表中的字數和收字數。
詞表作為國家標準,將面向所有用戶。所有用戶的受教育程度不同,交流範圍不同,行業需求不同,對漢字的使用要求必然不同。而且漢字本身的使用頻率差異很大,普及程度也不壹樣。因此,詞表只能反映漢字的實際使用情況,照顧不同人群的需求,提高詞表的實用性。
詞表共有8300個詞,根據其普遍性分為三個層次。每壹級詞表的字數,每個詞的標準字體,部分詞的使用範圍都有明確的規定。壹級詞表* * *收錄了3500個詞,是壹般社會領域使用頻率最高的常用詞集合,主要滿足基礎教育和文化普及的用詞需求。二級詞表* * *收詞3000個,常用於壹般社交領域,但使用頻率明顯低於壹級詞;壹、二級詞表包含6500個詞,主要滿足現代漢語文字印刷出版的需要。三級詞表* * *包含1800個詞,是中小學語文教材中姓氏、地名、專業術語、文言文中未進入壹、二級詞表的常用詞,主要滿足與公眾生活密切相關的特殊領域用詞需求。
常用詞是使用頻率最高的詞,涵蓋了大部分常用的語言材料,人們在閱讀和寫作時經常用到。常用詞壹定要足夠多,但是越多越好。準確確定常用字的數量並獲得它們對於漢字信息的傳遞、識字教學、字書編寫等應用都具有重要意義。理論上,通用規範漢字表的制定是基於“漢字效用遞減率”這壹重要原則。頻率反映了漢字的具體使用情況,單個漢字的使用頻率並不是均勻分布的。隨著詞頻的下降,漢字的覆蓋率在下降。當詞頻下降到壹定程度,覆蓋率基本不增加。因此,通過掌握以下數據,可以大致統計出常用漢字的數量:(1)從某通用語料庫中檢測出的漢字使用頻率降序排列表;(2)每個頻率段的語料庫中包含的不重復漢字的數量的增量;(3)每個頻率段覆蓋範圍的增加。
為了得到這些數據,選取什麽樣的語料,選取多少字數的語料進行統計,將直接影響統計結果的代表性、客觀性和準確性。制定通用規範漢字表,選用國家語委《現代漢語平衡語料庫》作為基礎語料庫。根據時間和領域平衡的原則,本語料庫收錄了2009-2002年9191萬個漢字,不重復8181個漢字。同時,北京語言大學的《現代新聞媒體動態流通語料庫》(收集1-2002、15種報刊3.5億字)和《通用規範漢字表》課題組建立的《教育科學綜合語料庫》(收集1951-2003)同時還參考了平面媒體、網絡媒體、音頻媒體、教育資料的海量語料庫基於對這些語料庫的統計和分析,得出了《通用規範漢字表》壹級和二級詞表的分類、詞量和收詞的基本結果。
在確定壹級和二級接收的字數和字數時,總是以客觀的統計數據為主要判斷依據。但由於漢字本身及其使用的強烈人文性,漢字字符集的界限並不清晰,但存在壹定數量的“臨界詞”。只有手動調整這些“關鍵詞”,才能更科學地反映漢字使用的實際情況。在確定壹級詞表時,進行了如下人工幹預:(1) 10大寫數詞,22個主幹詞,31省(直轄市)縮略詞和常用對聯詞的部分漏字補全;(2)增加《兒童文學語料庫》(1949之後出版的適合基礎教育閱讀的各類體裁兒童文學語料庫570萬漢字)口語高頻詞;(3)提出300個詞頻在3201到3500之間的詞,在中小學教師中進行問卷調查,用增加的詞替換掉這些詞,將替換掉的詞減少到二級詞表中。人工幹預調整的字數占3%左右。在確定二級詞表時,主要是對備選詞表中的詞逐壹進行檢查和識別,排除備選詞表中與現代意義相差甚遠、與其他詞有物理糾纏的詞,用三級詞表中出現頻率相對較高的詞進行彌補。
與原《現代漢語常用詞表》中的3500個詞相比,有103個詞,但在不同語料庫中的覆蓋率比原常用詞中的覆蓋率高0.09% ~ 0.22%。與原《現代漢語通用詞表》中的7000個詞相比,第壹、二詞表中的6500個詞減少了500個詞,但在不同語料庫中的覆蓋範圍基本不變。之所以字數減少,覆蓋率不變,是因為漢字規範化在中國幾十年來取得了成效,適用性差的字自然被淘汰,社會用字相對集中。同時可以看出,通用規範漢字表中的選字和量化數據是優化的,方法是科學的,程序是合理的。
6.通用規範三級漢字表建立的原因和性質。
通用規範三級漢字表的建立主要是為了在通用層面上滿足特殊領域的漢字需求。由於信息化帶來的用字日益增多,通用規範漢字表如果僅限於基本的常用字,雖然可以滿足日常生活中用字的需要,但無法解決計算機存儲和特殊領域用字的問題。因此,有必要添加壹些與公眾生活密切相關的特殊詞語。《通用規範漢字表》除了基本的常用字外,還增加了三級字,並對中小學教材中的姓氏、名字、專業術語、文言文等適當增加了用字,有效解決了這四個領域信息處理的漏字問題。
三級詞雖然不能按照詞頻和覆蓋率收集到壹個均衡的語料庫中,但還是屬於普通級的。這個問題需要從兩個方面來解釋:
首先,我們需要充分理解“普遍性”這個概念。“普及”包括兩個層面:壹是印刷,二是閱讀。能進入均衡語料庫的漢字,既有知名度。但也有壹些漢字,不是經常打印,而是經常閱讀。比如營養學中的醫學名稱和專業詞匯,只用於專業領域的印刷,但讀者卻可以達到千家萬戶。再比如,基礎教育語文教材中使用的少量文言文不屬於社會常用字,但教材每年都要印刷,師生和家長都要面對,閱讀人口幾乎達到了千家萬戶。這些字也需要統壹字體,輸入規範。
第二,在信息時代,“普遍性”的概念發生了實質性的變化。除了人用,還要考慮電腦的存放和使用。在漢字以手寫為主的時代,這些特定領域的用字即使標準不確定也不會有太大問題。在計算機和互聯網時代,那些憑借詞頻在壹般語料庫中難以找到的詞,在人們的日常生活中並沒有失去通用性。基於漢字的信息,有的是流通領域的熱門,有的是儲備領域的必備。比如名字,除了名人,在社會壹般層面都不會用太多;地名,除了大城市和著名景點,在社會壹般層面的使用量有限,不能按照詞頻和使用量來收集。而無處不在的郵政、金融、交通等事業,如身份證、學歷證、醫保、產權證等證件,都要預留可能使用的漢字。如果這些詞在信息處理上不規範,也會造成社會信息存儲和使用的混亂。這些特定領域的詞匯很難收集,需要從特定領域提供的特定詞匯中收集。專業領域的常用語是對壹般社會常用語的不可或缺的補充。
7.通用規範三級漢字表的原則、範圍和具體來源。
在確定通用規範三級漢字表的用詞接受度時應堅持以下三個原則:(1)從漢字應用的具體事實出發,需要有文字或文檔的來源,或者由相關職能部門提供用例及來源;(2)必須音義完整,命名用詞要適合命名;(3)要保證其普遍性,不接受用處不大的生僻字。收字範圍具體包括:姓氏和名字用字、地名用字、專業術語用字、中小學教材文言文用字。
(1)用於姓氏和名字的字符。中國是壹個多民族國家。姓氏不僅體現了族群的傳承和血緣關系,也成為每個公民的稱謂符號,其字不可隨便更改。為了保證信息傳播的可靠性,詞表要盡可能多地為姓氏收集詞語。至於名字用的漢字,現在還挺混亂的。有些名字即使在已經擴充到7萬多字的計算機國際編碼字符集裏也很難找到。導致二代身份證因為字體不完整而無法制作,給壹些人的生活帶來很大不便。《通用規範漢字表》不能改變現有姓名使用中的混亂和麻煩,但可以為以後的命名(主要是新生兒)和更名提供壹些好用的字,可以引導人們減少生僻字的使用,避免用錯別字命名。因此,需要盡可能地收集所有的姓氏,從已有的名字中選取足夠的適合命名的漢字,以保證個人名字在社會上的有效流通。
(2)地名中使用的詞語。地名中使用漢字往往不是全國通用的,但對當地居民來說是常用字。在省級區劃範圍內,鄉級以上地名用字必不可少。由於方言之間的關系,經常產生各種“方言詞”或自創詞,造成用詞混亂。如今,戶籍、郵政、金融等行業的信息存儲和檢索已經全面數字化,地球衛星定位系統得到廣泛應用,地名用字混亂會給相關行業帶來信息堵塞的後果,不言而喻。
(3)科技術語中詞語的使用。由於科學技術的發展,教育水平的提高和科學知識的普及,許多科技術語迅速進入了人們的日常生活。就拿記錄化學元素的漢字來說,很多都是用在藥物的名稱上。當處方不是手寫而是電腦記錄的時候,這些文字就成了醫生、藥劑師、患者和家屬之間交流的載體。還有很多農藥、化肥、室內裝修材料都需要用學名來宣傳推廣。至於化妝品和清潔劑的使用,飲食健康的講解,天氣的收集和預報等。,壹旦進入科學普及領域,都將受到普遍關註。特別是各專業教材的編寫和印刷都會用到這些詞。
(4)中小學教材中的文言文。規範漢字主要寫在現代漢語文本中,但傳統、歷史、現代並不絕緣。現代文會引用文言文作品,中小學語文教材會收錄壹些優秀的文言文作品。前者可以收集在壹般的平衡語料庫中,但為了保證教材印刷的規範性,需要收集語文教材中文言文的詞語。
這四個方面既是信息時代使用漢字的重要領域,也是信息傳播中容易缺少漢字的領域。具體收到的字數如下:
姓、名共930字,主要來源於1982、18省市抽樣普查數據,以及公安部提供的部分姓、名,並適當補充了部分古姓和有影響的古人名。
地名用字465個,主要來源於民政部提供的鄉鎮以上地名用字、國家測繪局提供的部分村名和部分自然實體名稱,以及常用漢語工具書中標註為“地名”的用字。
科技術語276個字,主要來源於國家科技術語審定委員會提供的中醫、植物學、遺傳學、冶金學、微生物學、土壤學等56個大類,中國社會科學院語言研究所提供的科學技術、人文社會科學等33個大類。
中小學文言文教材用字362個,主要摘自字表開發工作組建立的“中小學文言文教材語料庫”(從1949至2007年中小學語文與文言文普及語料庫中收集了560萬個漢字)。
以上四個方面用詞合並復制後,去掉已經進入壹、二級詞表的詞,再去掉難詞、錯別字、異體字,* * *為1800詞。因為三級詞是由四個詞組合並剔除重復後得到的,所以三級詞的屬性並不都是單壹的,有些詞在多個領域可能有不同的屬性。
8.《通用規範漢字表》中異體字的處理
嚴格異體字的定義應該是:音義相同,記詞功能相同,只是形狀不同,在任何語境下可以互相替換,不影響表達意義的壹組字。可見,從功能上看,異體字是漢字的冗余,只是增加了記憶的負擔,需要規範。195565438+2005年2月22日,《第壹批異體字整理表》的說明指出:“自實施之日起,全國出版的報紙、雜誌、書籍停止使用表中括號內的異體字。但如果需要原話重印古籍,可以破例。”這壹解釋明確了異體字屬於“不規範字”的範圍,在壹般水平上書寫現代漢語課文時不能使用。然而,變體列表中確定的壹些“變體”不是嚴格意義上的變體。將這些詞全部納入“不規範詞”的範圍並取消,有時不利於準確表達意思。
詳見中國語言文學網(網址:)。