① 有信息化的手段處理文字是語文的
教育部語言文字應用研究所
隨著中文數字化產品的不斷問世,表明中文數字化技術日漸成熟,用信息化手段研究語言文字的時代已經到來。
相對於信息技術的發展而言,語言文字工作者的研究手段則顯得相對落後,制約著其研究和發展的進程。究其主要原因在於:資源的數字化遠遠跟不上時代的發展脈搏,滿足不了學者所需。目前為止,仍有相當數量的關於語言文字方面的史料、資源等都是以紙張形式存在,即便有電子形式,也不成體系。學者要進行學術研究、撰寫論著,還只能憑借自己大腦中貯存的有限信息為線索,到浩瀚的書海中搜尋,而且由於研究手段的陳舊,研究成果往往不便重復利用,造成很大的人力、資源的浪費,制約著研究的進程。據了解,多數學者都把80%、甚至更多的時間、經歷用於資料搜集,而且尚無把握查全;只有不到20%的時間、經歷是真正用於思考、研究。這不僅浪費了大量寶貴的時間和精力,也會由於個人知識的空白而漏掉了某些有價值的資源,這種本末倒置的現狀必須改變。利用信息化手段進行研究工作,不僅可以提高研究工作效率,而且對信息挖掘的深度和廣度也是過去手工辦法無法比擬的。我們要充分地運用信息化手段,讓更多的人成為學者,讓學者更專注於研究,這樣才能多出成果、快出成果、出好成果。使語言文字的研究工作邁上一個新台階。
對語言文字的研究來說,信息化的前提就是要數字化。縱觀近十年的數字化歷程,筆者認為以下幾點值得重視:
一、什麼是數字化?
數字化不是紙張載體版本的翻版。掃描在很多情況下是必要的,但掃描不是數字化,因為圖像文字代替不了編碼文字,不能實現全文檢索。真正的數字化是將紙張內容轉為編碼文字並使之與多種有效的檢索、處理工具相結合,做到足不出戶、字字可查、句句可檢、圖圖可視、由此及彼、由表及裡,獲取所需資料。這才是真正的數字化。
二、什麼樣的編碼標准適合中文數字化?
由於歷史的原因,導致了今天這個「萬碼奔騰」的局面。其中最主要漢字編碼標准有BIG5、ISO 10646、UNICODE、CJK、GB2312、GBK、GB13000、GB18030等等、等等,再加上一些自造的編碼,一時間讓人們不知所措。
筆者認為,做數字化之前,先弄清楚這些編碼及其之間的相互關系非常重要。故此花點篇幅作一簡單介紹。
ISO 10646是國際編碼標准,該標准旨在囊括世界上所有文種。CJK特指其中的中、日、韓統一編碼的漢字部分。目前CJK由三部分構成:CJK 20902漢字、CJK Extension A 6582漢字和CJK Extension B 47211漢字。也就是說,到目前為止ISO 10646已編碼漢字達七萬字之多。其中,前兩部分在基本多文種平面(BMP)編碼,第三部分是在第二輔助平面編碼。UNICODE 是工業標准,它是由IT企業集團制定的,總體上,他的內容與ISO 10646完全相同,也可以簡單地說是對ISO 10646的俗稱。GB13000是等同採用ISO 10646的國家標准。CJK 20902漢字部分,既包容了GB2312,同時也包容了台灣的工業標准Big5。
BIG5是台灣的工業標准,編碼漢字13061字,在Windows NT 5.0之前,俗稱的繁體平台普遍採用此編碼標准。GB2312、GB18030、GB13000.1均為國家標准,而GBK是國家規范。GB2312編碼漢字6763字,是在Windows 95出現以前,國內信息處理普遍採用的編碼標准。GBK是在保持GB2312原貌的基礎上,將其字匯擴充至ISO 10646中的CJK 20902漢字,同時也就包容了台灣的工業標准Big5中的全部漢字,沒有體系結構的變化。而GB18030則不然,它是在GBK的基礎上做進一步擴充,不但把CJK Extension A 的6582漢字擴充進去,而且還改變了GBK的體系結構。GBK是在Windows 95開始至Windows NT 5.0之前這一段時間內被業界廣泛採用的編碼規范。GB18030至今未見實現。 盡管GB2312、BIG5、GBK在某種程度上依然尚存,但ISO 10646(GB 13000/Unicode)已日漸成為主流編碼,這是一個不爭的事實。
由於語言文字研究領域對文字量的特殊需求,經常會有人投其所好,推薦什麼所謂的大字型檔,切忌慎用。凡屬這樣的字型檔,多半是自造編碼,與通用的編碼標准不兼容,只能在它自己特定的環境下顯現、輸出,通常的文件存儲形式為Word或文本,檢索、排序等等都存在著相當大的問題,而且不能與外界進行交換。因此,自造編碼體系是絕對不可取的。
作為一名從事十幾年國際編碼標準的制定者、近十年的數字化歷程的見證者,筆者認為:對語言文字領域而言,數字化產品的開發應該建立在國際標准ISO 10646(GB 13000/ Unicode)的基礎上,堅持走國際化道路,這樣的產品才更有生命力。也只有這樣,才能促進相互間、乃至國際間的學術交流。
三、國際標准ISO 10646(GB 13000/Unicode)的優勢何在?
國際標准ISO/IEC 10646-1:2000(包含CJK和CJK Extension A 漢字27484),已於2000年10月5日正式出版。其內容與工業標准Unicode3.0是完全等同的(也已出版);而ISO/IEC 10646-2:2000(包含CJK Extension B漢字42711)已於2001年10月正式頒布。預計2003年11月前後國際標准ISO/IEC 10646:2003將正式出版,與其相應的工業標准Unicode4.0也出版在即。目前正在研究中的CJK Extension C1含有24000字左右,不日也將正式進入國際標准ISO 10646。
我們說到ISO 10646/Unicode,首先指的是它的體系結構,其次才是它的字匯量。
選擇ISO 10646/Unicode作為文字平台,一、是由語言文字資源的豐富內容決定的:只有ISO 10646/Unicode廣闊的代碼空間才能全面地、准確地、合理地表徵數以億計的漢字內容。二、是由漢字的字際關聯特性決定的:只有ISO 10646/Unicode的體系結構才可能方便地實現在一個代碼體系內的漢字關聯,這樣才能完成數字化的使命。不但是簡-繁、正-異等常見的關聯,中-日也可關聯,關聯類型更寬泛。三、是多文種並存的需求所決定的:中國本身就是一個多文種國家,再加之國際間的文化交流,日、俄、漢、蒙、藏、彝、朝等多文種並存現象不可避免,只有ISO 10646/Unicode的體系結構才可能更好地解決多文種並存問題。四、是由交換的需要所決定的:只有ISO 10646/Unicode的體系結構才可能實現數字化資源的通用性,才能夠打破字元集的壁壘,讓兩岸四地乃至全球都能實現漢字的無障礙交換,全球交互操作。五、是技術實現和開發成本所決定的:只有ISO 10646/Unicode的體系結構才有可能實現SDSB(一套數據、一套軟體在多種平台上運行),這樣才能使軟體大大簡化,降低開發、維護、培訓成本。六、是數據穩定性的需要:只有ISO 10646/Unicode才能做到「一碼」走遍天下。
四、採用國際標准ISO 10646應該注意哪些問題?
選擇ISO 10646並不意味著字元集愈大愈好。一切都應從內容的實際需要出發。實際上,ISO 10646本身就是允許子集的,國際標准化組織IRG目前正在進行國際基本子集的研製工作,不日即將問世。工程的實踐已經清楚地表明:
像《四庫全書》這樣7億漢字的古籍巨著,CJK的20902漢字已經可以解決99.4%的問題(不包括小學類字頭),如果再加上CJK Extension A便可以解決99.9%的問題。即便像《四部叢刊》這樣被圈內譽為版本比較好、沒有做過規范化整理的古籍,CJK的20902漢字竟可以解決其1億漢字的98.1%的問題(不包括小學類字頭),如果再加上CJK Extension A便可以解決99%的問題。
像《中華文化通志》百卷本1300萬字的當代巨著, CJK的20902漢字可以解決99.97%的問題。像《人民日報》這樣內容寬泛的現代出版物,以其1998年一年的2,694萬數據為例,GB 2312的6763漢字就可以解決99.993%的問題,其中「鎔」和「佩」兩個字在0.7%%外字中的佔有率竟高達93%;如果採用CJK的20902漢字,外字僅出現6字次,所佔比例微乎其微。
至於CJK Extension B和即將頒布的CJK Extension C1,主要適用於進一步支持類似《康熙》字典和《漢語大字典》這樣大規模字、辭書的電子印刷和電子出版。採用ISO 10646 / Unicode,特別是採用CJK和CJK Extension A,目前的條件已經成熟,從平台、瀏覽器、編輯器、程序語言、字型檔、輸入法、資料庫管理系統都已經支持Unicode,只是一些人還不太了解這個事實罷了。然而,對於CJK Extension B,目前的條件尚不成熟,決策之前,必須審慎再審慎、斟酌再斟酌,權衡利弊,一定要考慮清楚是否真的需要?原因在於這是涉及到體系結構的大事情。
另外,必須弄清楚Code Page與ISO 10646的關系。GB2312、GBK、GB18030、BIG5等等都是Code Page,GBK是GB2312和Big5等的超集,GB18030是GBK等所有Code Page的超集,它是迄今為止最大的Code Page,也是最沒有生命力的Code Page,理論上存在,現實中死亡。GBK對於從GB 2312向ISO 10646過渡起了重要的作用,這在WINDOWS 95上就有所體現:WINDOWS 95的內核已經Unicode化,正是由於這一點,WINDOWS 95上所有GBK字型檔都可以完全不加修改地作為Unicode字型檔用於WINDOWS NT平台;只要將WINDOWS 95上輸入法碼表存成Unicode形式,就可以用於WINDOWS NT平台。但它畢竟還是Code Page,它不是ISO 10646 「一碼走遍天下」的體系結構。停留在GBK,或者去發展GB18030都是自尋死路,不可能實現SDSB全球化的數字化產品的開發。
特別需要注意的是,ISO 10646 / Unicode也有多種變換形式,UTF-8和UTF-16。新近又增加了UTF-32。從數字化的發展來看,最好直接使用UCS-2而不要涉及這些變換形式,以免造成今後轉換的負擔。UTF-8看來已經落後;而UTF-16(Surrogate)還不夠成熟。UTF-32正處在發展當中。
對於字種需求量大的用戶,主要是字、辭書用戶,請特別注意UTF-32的發展動向,這有可能是這些用戶未來的一個良好出路。
五、哪些成熟的技術適合中文數字化?
平 台:Windows NT 4.0以上版本、Windows XP、Windows 2000
數 據 庫:Sybase, Oracle, SQL Server
編程語言:VC、VB、Java以及新近推出的.NET
文獻內容標識語言:XML
瀏 覽 器:IE 4.x 或以上版本
字 庫:標準的TrueType字型檔都是基於ISO 10646 /Unicode的,但需要注意的是:字元容量超過64K尚存在技術問題。
適用工具:
☆ 基於UNICODE的OCR自動識別技術,可以實現手寫體和印刷體的圖文數碼轉換,並可以實現無紙化的聯機校對。
☆ 基於UNICODE的全文檢索技術,可以實現跨篇章的全文檢索,並將漢字關聯納入其中。
☆ 基於UNICODE的輸入工具
② 如何開展數字化環境下的語文教學
數字環境是人與空間的新界面,它集合文字、圖像、影像、聲音、燈光、交回互行為等答,形成一個可控制的環境空間,為環境中的人帶來特定的感受,能夠有效地傳遞與收集信息.
數字化教學是指教師和學習者在數字化的教學環境中 ,遵循現代教育理論和規律 ,運用數字化的教學資源,以數字化教學模式進行培養適應新世紀需要的具有創新意識和創新能力的復合型人才的教學活動.[1]
簡單的說,數字化教學就是利用多媒體教室、電腦等現代化多媒體載體進行的教學.數字化校園是以數字化信息和網路為基礎,在計算機和網路技術上建立起來的對教學、科研、管理、技術服務、生活服務等校園信息的收集、處理、整合、存儲、傳輸和應用,使數字資源得到充分優化利用的一種虛擬教育環境.通過實現從環境(包括設備,教室等)、資源(如圖書、講義、課件等)到應用(包括教、學、管理、服務、辦公等)的全部數字化,在傳統校園基礎上構建一個數字空間,以拓展現實校園的時間和空間維度,提升傳統校園的運行效率,擴展傳統校園的業務功能,最終實現教育過程的全面信息化,從而達到提高管理水平和效率的目的.
③ 仿寫五年級語文書第八課第四段
有人將信息時代的生存稱為「數字化生存」.「數字化」的意思就是計算機化,計算機將不再只和計算有關,它還會決定我們的生存.也就是說,運用電腦進行信息的採集、加工、製作與傳播,將成為人類基本的生活方式.而閱讀和寫作,便成為「數字化生存」的一種基本技能.今後,許多人將可以在家裡上班和生活(網上娛樂、購物、社交等),那更是一刻也離不開網路,離不開閱讀、寫作.未來的社會是一個學習型的社會,閱讀和寫作是學習的基本形態,言語活動將伴隨著人一生的學習、工作和生活.
語文學習在能力層面上的終極目標指向言語表現能力(說、寫)的培養,而在言語表現能力中,寫作能力又尤為重要.因為,寫作不但有實用意義,有助於人更好地學習、工作和生活,有助於文化、文明的創造和傳承,而且它還能體現人的綜合語文素養,促成人的心智、人格的發展,提高人生的境界.在語文學習中對寫作的重視,已經體現在高考試卷作文分值的不斷提高上,目前這一狀況仍呈上升趨勢.《義教課標》明確指出:「寫作是運用語言文字進行表達和交流的重要方式,是認識世界、認識自我、進行創造性表述的過程.寫作能力是語文素養的綜合體現.」因此,在語文教學中,寫作能力的培養應成為中心和龍頭.
④ 如何在小學語文課堂運用數字化資源
具體而言常有以下幾種方法:
(一)情境型 指教師根據文本的意境,創設一種情境,激發學生的學習情趣,讓學生想像優美的意境,體驗美好的情感。簡言之,通過導入引導學生進入作品描寫的情境。在教學中教師如果能夠創設並引導學生進入教材所描繪的情境,無疑對優化課堂教學起著重要作用。古人雲:「感人心者,莫先乎情。」要讓學生通過對課文的學習加深對文本的理解,從中受到感染,教師就要善於挖掘課文中的情感因素,引導學生「披文以入情」,產生心理上的共鳴。在閱讀課的導入中時常是通過營造出一種氣氛,或再現一個場面,從而把課文描繪的意境再現出來,把學生潛在的審美意識和追求美的情趣激發出來,使學生在耳濡目染中與作者在情感上產生共鳴,順利進入到課文學習中去。
1、看圖導入 義務教育課程標准實驗教科書的每一課都安排了意境優美、色彩鮮艷的情景圖,配有教學掛圖,通過網路資料還可查閱到更多的與課文內容相關的圖片。它們作為直觀教材,比形象的語言更具有說服力和真切感,可以使學生獲得較深的印象,可以化抽象為具體,給學生提供豐富的感性經驗,鮮明地揭示事物之間的關系。教師在導入時充分發揮其作用,以此導入新課,能幫助學生理解課文內容,提高學習的興趣,收到良好的效果。
2、 藉助媒體導入 隨著人類社會的日益進步,多媒體教學的日趨完善,現代的課堂趨向於「聲情並茂」。在課堂導入時教師根據需要結合聲、色、圖,甚至是影視片段來輔助我們的教學,能增強教學的直觀性和可感性,能讓學生產生豐富的聯想,激發學生學習的興趣,能創設一個讓學生積極思考的氛圍,喚起他們的情感體驗,達到語言所難以企及的效果。
⑤ 謹防數字化痴呆(語文閱讀題)
中心論點:謹防數字化痴呆症。
論證思路:首先,引出中心論點;接著,論述數專字化痴屬呆症的危害;最後,指出怎樣克服數字化痴呆症。
20、列舉數字化痴呆症的具體表現來論證論點,增強文章的說服力。
21、答案略。(要緊扣「創造力下降」「注意力分散」「親情淡薄」三個要點作答)
22、①想戒掉「電子癮」;②可遇不可求;不是客觀課理性的態度。
⑥ 如何語文教學中實施數字化教學
數字環境是人與空間的新界面,它集合文字、圖像、影像、聲音、燈光、專交互行為等,形成一屬個可控制的環境空間,為環境中的人帶來特定的感受,能夠有效地傳遞與收集信息.
數字化教學是指教師和學習者在數字化的教學環境中 ,遵循現代教育理論和規律 ,運用數字化的教學資源,以數字化教學模式進行培養適應新世紀需要的具有創新意識和創新能力的復合型人才的教學活動.[1]
簡單的說,數字化教學就是利用多媒體教室、電腦等現代化多媒體載體進行的教學.數字化校園是以數字化信息和網路為基礎,在計算機和網路技術上建立起來的對教學、科研、管理、技術服務、生活服務等校園信息的收集、處理、整合、存儲、傳輸和應用,使數字資源得到充分優化利用的一種虛擬教育環境.通過實現從環境(包括設備,教室等)、資源(如圖書、講義、課件等)到應用(包括教、學、管理、服務、辦公等)的全部數字化,在傳統校園基礎上構建一個數字空間,以拓展現實校園的時間和空間維度,提升傳統校園的運行效率,擴展傳統校園的業務功能,最終實現教育過程的全面信息化,從而達到提高管理水平和效率的目的.
⑦ 語文病句
"數字化的浪潮正在方興未艾"
我覺得這句話的主語是:浪潮,而"方興未艾"不適合修飾它.
可以改成:數字化的浪潮一浪高過一浪,或者是:數字化正在方興未艾.
⑧ 什麼是賓語中心語
句子的主幹(基本成分)就是主(語)、謂(語)、賓(語),主語一般代表為所描寫對象,謂語一般代表為它的動作,賓語是是動作後的結果,賓語的中心詞,一般是指,把修飾結果的形容詞都去掉後,剩下的那部分。
例如:我愛你。「你」在這里就是賓語。
然後擴句:我愛漂亮的你。「漂亮的你」是賓語,其中「漂亮的」是形容詞,用來修飾賓語中心語「你」。如果省略了賓語中心語「你」,就變成了「我愛漂亮的」,這就不是個完整的句子。
當一個句子的主語、謂語、賓語是由偏正短語充當時,才有中心語。可見,有了上下文的銜接,賓語中心語可以省略,甚至主語也可以省略,卻不會讓人難以理解省略之後的句子是什麼意思。
(8)語文數字化教育教學擴展閱讀:
定語中心語
定中短語的中心語一般由體詞性詞語來充當。
例如:
名詞:木頭房子野生動物壯麗的山河面無表情的樣子
代詞:現在的他們從不吃葷的她小小年紀的他氣喘吁吁的他
定中短語:剛買的新書非洲野生動物一次性注射器材優秀語文教師
復指短語:氣候宜人的海濱城市青島面貌一新的首都北京經驗豐富的司機小王
聯合短語:她的希望和幻想我的所見所聞高速發展的工業農業
「的」字短語:一點吃的一群看熱鬧的那些打太極拳的兩個賣報紙的
謂詞性詞語也可以充當中心語。
例如:
群眾的支持溫度的下降商人的精明智力的開發體制的束縛滿腹的怨恨