跳至主要內容

語言是進入網際網路的第一把鑰匙

Image by Pete Linforth from Pixabay 

全球化與網際網路發展的影響下,英文成了國際間通用的語言。使用網際網路必須要先透過26個英文字母,或至少得先記住幾個入口網站或搜尋引擎網站的英文位址,再自透過搜尋或入口網站的連結找到自己的目的地。

自圖 1 可以得知在網際網路裡最常被使用的前十大語言:英文的使用人口數為第一,其次是中文 (無特別區分正體中文或簡體中文),第三為西班牙文,除了英文的普及性造成使用人口較多外,中文的使用人口數也不遑多讓。雖然這三種語言為全球使用人數居多的語言,然而在網際網路的內容上,則有不同的呈現。

圖 1 網際網路使用的前10大語言與其使用人口數統計
資料來源:Internet World Stats - Top Ten Languages Used in the Web (2019.04.30)

從 圖 2 可以得知,至2019年9月17日前,網際網路中的內容過半以上都是以英文來呈現,其他語言占比多數都不超過10%,中文僅占1.6%。就比例上而言,中文使用者是網際網路使用人口數的第二多人口,但網路上中文內容的資料僅佔整體的1.6%,更遑論其他更少見的語言內容不到0.1%。
圖 2網際網路內容使用的語言文字
資料來源:W3Techs.com - Percentages of websites using various content languages (2019.09.17)
除了網路的內容多是以英文呈現外,網站位址也是由英文的26個字母 (a到z)、阿拉伯數字 (0到9) 與連字符號 (-) 組成,透過對應 IP 位址,讓一般網路使用者不需要記住 IP 位址就能找到網站,然而非原生語言的網址,對於其他語言的使用者來說,仍有進入障礙。

對於非英語系國家人民來說,因為傳統文化的影響,讓性別因素影響了女性接受教育的權利,或是因為戰亂、經濟等因素,造成女性或是弱勢族群無法接受第二或其他外語的教育,在聯合國17個永續發展目標中的第 4 個目標,便是「確保包容和公平的優質教育,並為所有人提供終身學習機會」,在各國倡導網路教育平台及各大學都藉由網際網路開設課程的趨勢下,如果能降低女性與弱勢族群的進入網際網路的門檻,將會有助於達成該目標的達成,而國際化域名將會提供一定的助力,讓非英語系的族群較容易進入網際網路領域。

網際網路相關組織在國際化域名的努力

ICANN則自2003年開始著手進行國際化域名(Internationalized Domain Names,簡稱IDNs)的相關工作,讓不同語言的使用者都可以透過自己熟悉的語言及文字輸入網址,進入網際網路的世界,取得網路上的資訊。IETF在 2003 年 3 月發布了三則與 IDNs 相關的 RFC,分別為:
  1. RFC 3490 IDNA: Internationalizing Domain Names in Applications
  2. RFC 3491 Nameprep: A Stringprep Profile for Internationalized Domain Names
  3. RFC 3492 Punycode: A Bootstring encoding of Unicode for Internationalized Domain Names in Applications
在2009年之前,我們所知的頂級域名 (Top-Level Domain,簡稱 TLD)僅可使用英文字,但2009年11月之後,便可以藉由IDNs,申請不同語言文字,如中文、阿拉伯文、西里爾文的頂級域名。2010年至2014年之間,則是透過快速通道計畫(Fast-track),在根區域 (Root Zone)讓38個國家和地區頂級域名(Country code top-level domain,簡稱ccTLD)可以使用不同語言的文字,例如:”.台灣”。 直到2018年12月31日止,已有302個ccTLD被放入根區域中。

除了頂級域名外,ICANN也在2013年時進行為根區域(Root Zone)「標籤生成規則」(Label Generation Rules),藉由該機制來協助不同語言文字中,有效的IDN標籤和異體字的存在。

IDNs在全球發展狀況

ICANN 除了利用 Universal Acceptance 計畫來實踐真正的多語言的網路社會理想外,也持續執行推廣IDNs。

圖3 是由 IDN World Report 藉由開放的 gTLD 文件與每個 gTLD IDN 相關的"A記錄"國家與 ccTLD 社群的年度調查表所得到的數字,將 gTLD 與 ccTLD 的 IDN 申請數量合計所得到的數字。該圖顯示了自2013年後至2018年間,申請IDN數目的增長。俄羅斯、南韓、德國、台灣、日本在這段期間都有所增加,也顯示了有其需求存在。
圖 3 World Map Growth of IDNs
資料來源:IDN Report

申請 IDNs 的好處與挑戰

DNS讓每個網路的使用者不需要依賴記 IP 位址,而是可以透過對應可讀性較高的域名,讓每個人容易記得網址,而 IDNs 則是更進一步打算做到透過網路使用者習慣的原生語言,就可以輸入網址、寄送 E-mail,方便讓使用者取用(Access),並降低進入網路的第一道門檻。

就網際網路的商務應用來說,如果是打 算到其他語言國家建造在地化的網站,以協助在當地市場的銷售,也可以在自己國家申請該當地語言的泛用型域名(Second Level)。在台灣除了可以申請中文的泛用型.tw域名外,在 2018 年裡,也陸續開放了泰文、日文、韓文、法文、德文的泛用型.tw 域名服務,也就是網站的擁有者若想針對前述語言使用者提供相關的服務,不妨也將IDN的申請搭配該語言文字的內容,作為增強網站服務的在地化 (localization) 的手段之一,也能加強在該語言使用者心中的印象。

IDNs 的最終目的是希望能協助降低語言門檻,讓各個不同語言的人,不需要藉由學習英文或其他語言,而是以使用者本身習慣的原生語言輸入網址,進入網站。由於 IDNs 的對象屬於熟悉該語言文字的使用者,所以頁面內容也需要使用同一種文字,以達到整體網站的一致性並增加留住使用者在網站上的時間,也較能降低抗拒的心態。

自另一個角度觀察 IDNs 的優點,除了降低進入網路的使用門檻外,同時也可以使該語言的文字在網際網路上流通,維持網路的多樣性,增添對不同文化的包容性。網際網路在討論「包容」(inclusive)時,不是只有談論如何縮短數位落差與經濟成長,同時也包含了對性別、種族、文化、語言的包容,也能該整體網際網路生態體系更為健康。

在全球化(Globalization)的浪潮下,大家可能會由於使用人數偏多的語言,認為單一外語即可。但全球化並不代表英語化,使用 IDNs 還是要回到最原始的目的:「讓對使用該語言的使用者,可以使用自己較習慣的語言來進入、閱聽網站的內容,讓網際網路的文化具多樣性。」

儘管如此,IDNs 的實踐與通用仍有相當高的挑戰,例如瀏覽器、郵件伺服器、行動載具對不同文字在網址上的包容性並不一致,使用者本機所安裝的應用程式、操作系統對於特殊文字的包容性,又例如在漢字的使用上,日本、韓國、中國、台灣⋯⋯等使用漢字的國家也有所謂的異體字或同義字的複雜,且非拉丁語系文字與 DNS 的對應需要依照前述的三個 RFCs 來轉換、處理、對應。有許多消費者末端所使用的應用程式並不支援 IDNs,而電子郵件的往來更是重要,郵件伺服器若無法接受 IDNs,也無法讓訊息通過電子郵件傳遞。例如,當使用者在網站上申請註冊成為網站會員,在填寫電子郵件位址時輸入「中文繁體字@中文.台灣」時,有可能會因為以往的郵件伺服器的 IDNs 通用性不足,而無法傳遞註冊確認信。

在 IDNs 無法在全球完全普及的情況下,反而增加了進入門檻,也只會讓消費者對於 IDNs 的推動與使用完全無感。不愉快的消費經驗只會讓消費者更抗拒使用這樣的服務,也影響了網站擁用者使用 IDNs 的意願。除此之外,消費者可以透過搜尋引擎、社群平台來找尋相關的網頁內容,加上英語教育日漸普及、網際網路的科技也不斷的在改進,可以透過線上同步翻譯來減少閱讀英文或非慣用語言的頁面內容⋯⋯等各種方式來降低非英語慣用國家進入網際網路、取得網路上知識的門檻,這些對於 IDNs 的推動都有一定的挑戰。

結語

儘管網路科技進步與英語教育愈來愈普及,都能降低網路使用者進入網際網路的門檻,使用IDNs 時也要注意網站內容是要與 IDNs 呼應,有可能增加相對應的管理成本,但也不應該因此而停止實踐IDNs與通用性、易取用性的相關作為。反而更應該站在少數族群的立場,降低他們便利的網路使用門檻,更能增加網際網路的多樣性與對不同文化的包容。

參考資料:
  1. Internet World Stats - Top Ten Languages Used in the Web (April 30, 2019) 
  2. W3Techs.com - Percentages of websites using various content languages (Sep. 17, 2019)
  3. United Nations, Sustainable Development Goals Knowledge Platform
  4. ICANN, Internationalized Domain Names
  5. At-Large , Background: IDN
  6. World Map Growth of IDNs, IDN World Report
  7. TWNIC, 國際化域名標準-標準介紹
本文亦刊登於台灣網路資訊中心blog-語言是進入網際網路的第一把鑰匙,版權屬台灣網路資訊中心,若需轉載本文,請先向台灣網路資訊中心洽詢。

    留言

    此網誌的熱門文章

    為什麼我支持《數位中介服務法》草案

    在經歷許多次反抗台灣政府所立的網路相關法案後,我其實沒想過除了《數位通傳法》草案外,我還會再支持另一部法律草案,雖然 《數位通傳法》草案還壓在某處,但如果有人讀過《數位通傳法》的草案,再讀這部《數位中介服務法》草案,就會知道這部草案的重要性,而且也可以顯示台灣網路使用者的成熟度,更重要的,這是我第一次看到引入國際網路治理多方利害關係人機制的法律草案,而且是用在正確的地方。 有興趣想知道我在讀法條時的筆記和當下的感想,可以看我這則  Tweet 。這篇不使用逐條讀法條的方式來寫,因為那會讓人昏昏欲睡,我也不去比對歐盟《數位服務法》,因為我在讀《數位服務法》草案時,該草案特別強調是加強歐盟 E-Commerce Directive  ,而不是取代它,而且更多著重在預防盜版、仿冒,保護消費者的法案。所以當有輿論提到參考自《數位服務法》的《數位中介服務法》草案限縮言論自由時,我其實是一頭問號的,但一直到今天我才有時間讀《數位中介服務法》草案,這篇文章出自於我的個人經驗和閱讀法案的心得,與擔任的職務無關。 如果最近注意一下網路的資訊,有幾件事該注意一下: 有許多人在社群平台,如Facebook或是其他網路看到一些廣告,而這些廣告可能是要你支持台灣農產品、台灣製的產品,結果你收到時,上面還寫著簡體字,通常這是所謂的一頁式廣告詐騙,而行政院的消費者保護會在 2019 年時就有新聞稿在警告「 一頁式廣告詐騙多 小心查證保障多 」,之後像公視或是其他單位都有相關的活動在提醒大家小心這類廣告。但目前這些廣告其實多數不易處理,因為不容易取證、保留證據,等到追查到時已經找不到對方了。 有不少親密照片與影片在情侶分手後,被報復性的上傳到情色網站或透過即時通訊傳到親友的帳號裡,或是被洩露個資,遭到公開的霸凌。 之前有一個專題:「 青春煉獄:網路獵騙性私密影像事件簿 」,光是讀完這個專題報導我就覺得受傷。 有人使用 Deep Fake 把台灣名人的臉部照片合成至色情影片再上傳至色情影片平台,今年 7 月才被判刑。 還有許多創作者藉由網路分享作品時,被人盜用,甚至有國外的使用者修改台灣人的作品去參與比賽還獲獎。 有一次打電話問某個部會,如果消費者在國外電子商務平台買東西,但資料被外洩怎麼辦?雖然政府願意協助,但衡量至國外打官司的時間和成本,就會讓人卻步。 有些行為在現實世界裡有法...

    台灣成立個人資料保護委員會的重要性

    我在2018年6月7日去聽 PChome 的詹宏志董事長的 演講 ,他在演講中提到過去PChome被 DDoS 攻擊的事件。當他知道公司網站受到攻擊時,他不知道該向誰通報,只好藉由他的人脈網來尋求協助,當然也取得協助,並在他的考量下,儘量降低對公司聲譽、消費者權利的風險。 台灣發生過的真實案例 當我聽到這個經驗後,心中一直有個疑問:「當大企業遇到 DDoS 時,有內部資安管理人員全力處理。但若中小企業遇到 DDoS 時,除多功能的資訊服務團隊外,又該如何應對?」  2007年的博客來網站因為金馬影展的售票資料庫因為人為疏失,造成大量個資外洩,但因為當時的《電腦處理個人資料保護法》(即現在的個資法)還不是很完善,所以對當時的博客來而言並未有很嚴重的懲罰。 之後隨著網路愈來愈普及,網站因遭受攻擊造成資料外洩的事情愈來愈多,從會員資料庫外洩到癱瘓公司系統甚至導致醫療系統或網站癱瘓。,大家也開始藉由網路媒體教學,當自己的資料外洩,或是私密影像被惡意傳播時,就會先去警局報警備案。 在台灣,因為各目的事業主管機關的權責範圍不同,在沒有成立數位發展部(數位部)前,網路商店發生資料外洩時,可能會先找經濟部、國家通訊傳播委員會(NCC);在成立數位發展部後,就把所有責任給數位發展部。讓我很感慨的是2023年的 醫指付個資外洩事件 ,就看著衛福部、經濟部、數位部、金管會四個部會互踢皮球,都不認為自己是應該負責的目的事業主管機關,最後由金管會處理。 歐盟GDPR實施後對全球企業的影響 台灣的人權團體長久以來不斷倡議台灣需要獨立的個人資料保護機構,這件事我一直都沒忘,甚至是在討論 《數位中介服務法》 草案時,這部法的草案已經將個人資料保護機構應做的事已規劃至其中。可惜的是因為政治操作,這部法案就被遺忘了。 我在 2022 年開始蒐集全球個資保護與隱私保護的案件及觀察全球人工智慧、個人資料法規發展,我觀察到,台灣與收集的案例的最大不同處在於,與其他國家比較,台灣沒有獨立的個人資料保護單位,自然當其他國家在談資料跨境傳輸協議、人工智慧發展政策與規劃時,台灣沒有對等的單位可以參與討論,也許數位部同時身兼這樣的角色,但就不是前段所提到的「獨立」的權責機關。 歐盟的GDPR自 2018 年 5 月開始實施後,許多國家開始思考擁有資料保護及所有權的重要性而紛紛立法外,GDPR也對全球企業造成很...

    2024年的閱讀報告,還有電子閱讀器心得

    與往年一樣,在年底或年初分享自己過往一年的閱讀記錄。較以往不同的地方在於,閱讀的媒介變多了。以往我把 Google Playbook定位在讀工作上的報告PDF,所以打開它的機會只有在讀報告的時候,但今年在平板上用 Google Playbook 上閱讀完 《巴別塔學院》 後,決定之後都使用電子閱讀器讀電子書。 目前所有的電子書閱讀器 除工作用的平板電腦被我拿來閱讀小說外,我原本就有一台MooInk、Kindle,今年多採購一台 Kobo 的Libra Colour,希望開啟彩色電子書的開始。買Kobo的電子閱讀器還有另一個原因,Kobo平台上可以購買英文電子書,有時我希望在車程上讀英文書或讀中文書時,不希望身上有太多電子產品,Kobo是一個很好的選擇。所以我在 Kobo 上的第一本英文書是 《WEB 3》 。 所以這些工具的定位是: mooInk:單色,閱讀中文電子書。 Kobo Libra Colour:彩色,閱讀中英文電子書。 平板:用 Google Playbook 閱讀中英文PDF、電子書、電子雜誌,同時有 Readmoo與 Kobo APP。 Kindle:單色,英文電子書,目前已無法使用,但這是當時主管送給大家的禮物,每個人都有一台,開啟我英文電子書的使用經驗,也讓我在去Vanuatu的路上有書可讀。這台對我具紀念意義,所以留著。 但我現在沒有出國開會的機會,也很少去港澳,所以多在通勤時、剪髮時、休息時閱讀電子書。 在使用心得上,每次讀完平板都非常累,PDF的限制也無法在上面做太多記錄,電子書則受限於DRM,所以就算有劃線,也只留下空白。 Kobo的軟體整合做得最好,也可以購買中英文書籍,外出時也不用帶太多機器,如果有 Pocket 的帳號,還可以把網路上的文章存入Pocket,再用Kobo慢慢閱讀。Kobo同時也可以連結 Google Drive、Dropbox,讓使用者閱讀PDF文件,但我自己的感受是不佳,尤其是英文PDF的效果真的不好。另外,我很難把Kobo上的畫線分享出來,只能在自己的閱讀器上瀏覽,相較之下,mooInk 的分享機制做得很不錯。 在經過最近一次更新後,mooInk 的網路連線功能好很多,不像以前在休眠後就得重開機連網路。我現在還是會在 Readmoo 上買書,因為它的閱讀獎勵機制對喜歡閱讀的我是有吸引力的,只要點數足夠,就可以再兌...