Friday, September 30, 2011

談機器翻譯

機器翻譯正式應稱為 Fully Automated High Quality Machine Translation,理論上只要輸入原文,軟件即可以自動把文章翻譯為指定的語言,譯文的質量為讀者接受。一般來說,要讓機器翻譯軟件(例如 Google Translate)順利翻譯一篇文章,用戶需要事前把文章大肆稍作編輯,或在軟件完成翻譯後,把句子修改得體無完膚流暢、通順。然而,這種做法並非機器翻譯,機器翻譯(FAHQMT)的重點是翻譯前後均完全不經人手編輯,而得出讀者可接受的譯文。

機器翻譯的概念

雖然這系列的文章主要討論「機助翻譯」,但我認為我仍需稍微介紹機器翻譯的歷史。

De toren van Babel, Pieter Bruegel de Oude (circa 1565)

機器翻譯的理論,建基於一個「大同語言(Universal Language)」的概念,相信聖經的朋友可以把這語言理解為人類建造直達天庭的巴別塔前,大家都在說的語言(請自行參閱創世紀)。機器翻譯的基礎,就是只要把我們各式各樣的「方言」先轉譯為「大同語言」,便可以再翻譯為其他「方言」。

機器翻譯的歷史

二戰時,解讀諜報的方法成為機器翻譯的基礎

密碼學(Cryptology)與機器翻譯的發展有相當密切的關係,美國數學家瓦倫·韋弗(1894-1978)是機器翻譯的早期研究者之一,他在 1949 年的備忘錄(「Translation」)中首次建議把電腦運用在翻譯上,他的根據包括信息論、二戰時期的密碼破譯史以及「大同語言」這個理想。

When I look at an article in Russian, I say “This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode.”
Warren Weaver, 1947

當我看著一篇以俄羅斯文寫成的文章,我說:「這是以英語寫成,但卻以古怪的符號加密。我現在需要把它解碼。」
瓦倫·韋弗(1947)

二十世紀四十年代末,Bell Telephone Laboratories 的 Claude Shannon 提出有關語言的數學理論,而追本溯源則是溝通中所出現的統計學特徵,「統計語義學」正是由此發展出來的學科。

現在的主流研究都集中在「統計機器翻譯」「以範例為基礎的機器翻譯」,有興趣可以自行前往 Wikipedia 看那裏的文章。

機器翻譯的應用

Screen%2520Shot%25202011-10-01%2520at%25208.05.21%2520AM.png

一些要提供大量文字支援給用戶的企業(例如 Microsoft)均會在網頁上運用機器翻譯,按用戶需要把文字轉換為不同的語言,減省聘用翻譯的成本。以 Microsoft 為例,雖然這支援頁不少內容均以機器翻譯,不過部分內容其實仍由人手提供。參考 Microsoft Translator 提供的機器翻譯文章,可以看見機器把「Collapse All」翻譯成「所有人都崩潰」。

Screen%2520Shot%25202011-10-01%2520at%25208.30.26%2520AM.jpg

由此可見,例如 Collapse All 一類的字眼 Microsoft 應該早有定譯,版面直接從資料庫提取該批特定字眼,自動轉換版面文字(例如 Collapse all 變為「全部摺疊」;文章的其他內容則由機器翻譯提供。不過略過這些不重要的資訊,光看機器翻譯出來的內文,跟者上面的步驟,其實也可以解決用戶面對的難題。

在政府機關方面,美軍在 1970 年代引入 Systran 把俄羅斯軍事科學及技術文件翻譯成英文,據稱譯稿的準確性達 90%;另外,歐洲最大的翻譯機構--European Commission 在 1976 年開始以機器翻譯把英語翻譯為法語,現在機器支援的語言更包括歐盟內的所有語言。(John Hutchins, 1998)

機器翻譯出來的文章可否接受,實際上視乎你對文章的要求。如果你只是正在瀏覽一外地網站,只想簡單知道文章的大概,其實機器翻譯絕對可以幫助你。但若你要引用機器翻譯的文章、直接把文章送往出版社,則可能不能為人接受。

Warren Weaver 在 1949 年的備忘錄中說:

“Perfect” translation is almost surely unattainable. Processes, which at stated confidence levels will produce a translation which contains only X per cent “error,” are almost surely attainable.

我們幾乎可以肯定(通過機器翻譯)無法獲得「完美」的翻譯。但若要求機器翻譯出只含百分之X錯誤的文章,這可以說是絕對能做到的。

《機助翻譯系列》之二

參考資料

Hutchins, J. (1998) The development and use of machine translation systems and computer-based translation tools in Europe, Asia, and North America. [Online]

Weaver, W. (1947) Warren Weaver and Norbert Wiener correspondence 1947. [Online]

Weaver, W. (1949) Warren Weaver Memorandum. [Online]



http://uituit.wordpress.com/2011/10/01/%e8%ab%87%e6%a9%9f%e5%99%a8%e7%bf%bb%e8%ad%af/

Thursday, September 29, 2011

Johnny English Reborn 觀後感

Rowan Atkinson 繼續扮演烏龍百出的特務 Johnny English 參與機密任務,防止中國總理在與英國首相會談期間遇刺。

學武中的 Johnny English

電影摻合了一些中國元素,Johnny English 去西藏學習「鐵褲襠」等中國功夫,而在任務進行時亦一度前往澳門和香港搜集情報。電影開始不久,Johnny 即與大批武僧一起練拳法,學習神功「鐵褲襠」。Johnny 在香港碼頭上亦與人埋身肉搏、拳來腳往,頗為精彩。不過看來不少觀眾都像遊艇上喝著紅酒的老外,看見你打倒「敵人」便大喝「Bravo!」高深莫測的中國功夫,在老外的眼中可能只是有趣的猴子戲。

碼頭大戰

作為一套喜劇,102分鐘的電影毫無冷場,笑料層出不窮,已經達到我心目中的標準。看電影只是想輕鬆一下,何須想那麼多?

稍稍說點有趣的鏡頭:

曾與 Rowan Atkinson 在 Blackadder 中合作的 Tim McInnerny(Captain Darling)在《Reborn》中飾演 MI7 的發明家 Patch Quartermain。你在 Johnny English 中可不是叫 Darling 啊,為甚麼看見 Rowan 就「慣性」地擠眉弄眼?

裝有機關的 Rolls Royce

勞斯萊斯的標誌原來是特別機關!

Her Majesty 還是逃不出 Johnny English 的魔掌。

另外:Johnny English Reborn 片尾有彩蛋,不要急於離座!

圖片來自 Johnny English Reborn 官方網站



http://uituit.wordpress.com/2011/09/29/johnny-english-reborn-%e8%a7%80%e5%be%8c%e6%84%9f/

Monday, September 26, 2011

機助翻譯 vs 機器翻譯

與財經翻譯前輩討論香港財經翻譯的方法,從他口中得悉他的公司現在沒有使用任何翻譯軟件,只是把常用的詞語弄個 Glossary,然後 Find and Replace。談及機助翻譯軟件,他立即築起絕對領域,並說翻譯軟件的成品需要大量時間修改,費時失事。問及他曾試用的軟件,他卻只是說 Google Translate。我心裡暗罵 Google… 他有他的堅持,我有我的立場,不歡而散,卻激發我寫出這篇文章。

機器翻譯 vs 人手翻譯

機器翻譯(Machine Translation)、機助翻譯(Computer-aided Translation)兩者只是一線之差,大家在網絡接觸到的翻譯服務,例如 Google Translate 理論上是上圖最左手面的 Fully Automatic High Quality Machine Translation(全自動高品質機器翻譯),顧名思義,你丟一個字、一段句子、整個網頁給電腦程式,程式就會把所有文字譯成你想要的語言,中間沒有經過人工處理。當然,Google 讓使用者參與改寫句子排序,甚至改寫句子,那其實進入了 Human-aided Machine Translation (簡稱 HAMT-人工輔助機器翻譯)的範疇。HAMT 旁邊的 Machine-aided Human Translation (機器輔助人工翻譯)則類似第一段那位前輩的做法,利用文書處理軟件(Word processing software)翻譯文件、把常用的字句放進試算表以供日後使用或使用電子辭典都包括在內。最右手面的是 Human Translation,即人工翻譯,相信現在沒甚麼人會進行人工翻譯,但請不要請看人工翻譯在歷史上的重要性,唐朝名僧玄奘、清末多產翻譯林紓及嚴復或是歐洲的聖經翻譯工作者 St. Jerome 等的譯作都是人工翻譯的代表。過去 4,000 年間,人工翻譯默默肩負了知識傳遞及保存的工作,沒有他們的努力,西方醫學、哲學等的發展肯定落後好幾個世紀。

人工輔助機器翻譯(HAMT)中在可按程式的功能分類,一種是 Translation Memory System(翻譯記憶系統),另一種則先以機器進行翻譯,然後勞心勞力為那篇幾近垃圾的文章改頭換面。前輩對機助翻譯大皺眉頭,相信是吃了不少以機器翻譯成品的苦頭。

用機器翻譯應付歐洲語文效果可以接受,但譯成中文、日文、韓文或希臘文,則會出現非常囧的作品。例如用 Google Translation 翻譯 Stephen Fry 的其中一句名言:

I don't need you to remind me of my age. I have a bladder to do that for me.

I don’t need you to remind me of my age. I have a bladder to do that for me.

Google: 我不需要你來提醒我的年齡。我有一個為我做的膀胱。

人工翻譯:我不需要你來提醒我的年齡。 我的膀胱自會提醒我。(沒有改寫成「你不需要提醒我的年齡,我的膀胱自會提醒我。」是希望保留英語的語序以作比較。)

做出這個問題的原因是電腦無法解釋第二句的 That 指的是甚麼,但人腦一看就知道那指的是「remind me of my age」。要電腦順利把句子翻譯成可讀的英文,需要稍作改寫,把原句改為「I have a bladder to remind my age for me.(我有一個膀胱提醒我的年齡。)」

編輯那些令人看了折壽的譯文,倒不如讓機器紀錄自己的翻譯,有需要時把材料拿出來循環再用-翻譯記憶系統(Translation Memory)就是為此而誕生,世面流通的軟件包括AcrossSnowballDéjà VuSDL TradosAlchemy Catalyst等,價錢由免費至4,000歐羅不等。翻譯記憶系統開始時猶如一張白紙,你輸入一片文章,軟件會自動以逗號、句號等為目標,把文章切成細小的段落(Segment)。一邊利用軟件翻譯,就是一邊把資料放進資料庫。軟件自動將新段落與資料庫中的段落比較,若相似度高達一定百分比,則會建議用戶參考。累積的翻譯越多,資料庫越龐大,遇見相似段落的機率越高,可以省去的時間亦越多。由於每個段落是由你人工翻譯的,所以你不用擔心會被破爛不堪的機器翻譯誤導。當然,只有睡著的人不會犯錯,人始終也有犯錯的時候,如果資料庫建議使用的翻譯太爛,譯者可是責無旁貸的,不要怪在背後默默記錄的機器啊!

了解機器翻譯、機助翻譯、人工翻譯的分別,機助翻譯的分類,方可決定是否採用某一方案。科技不是洪水猛獸,希望大家能抱著開放的態度接受新事物,只要正確利用軟件,即可令工作事半功倍,何樂而不為。

-文章部分內容來自香港城市大學中文、翻譯及語言學系機助翻譯科的筆記



http://uituit.wordpress.com/2011/09/26/%e6%a9%9f%e5%8a%a9%e7%bf%bb%e8%ad%af-vs-%e6%a9%9f%e5%99%a8%e7%bf%bb%e8%ad%af/

Saturday, September 24, 2011

Apple Store 正式落戶國金中心,但我……

Photo taken by penguinsix via flickr


使用蘋果的產品已經七年,感覺蘋果已經由小眾玩意,蛻化成大眾潮流尖端。

蘋果與我 同行七載

2004 年購買 PowerBook G4 是因為對 Windows 的厭倦,對 IBM、Fujitsu、Sony 等牌子的設計覺得噁心。我不得不承認我是屈服在 Steve Jobs 的扭曲立場(Distortion Field),在決定購買前我反覆收看了他 Keynote 的錄像,看完後我熱淚盈眶,感到這是我追求的產品。

日本大阪梅田店外留影(2006)

2004 – 2011 年間,我外遊時都會趁機會參觀國外的 Apple Store,日本大阪梅田店、東京銀座店、英國倫敦 Regent Street、White City 店都有我的足跡。

梅田店的磨砂玻璃螺旋樓梯(2006)

Steve Jobs 設計的磨砂回旋樓梯我毫不陌生,因為那和大阪梅田店是一樣的;在英國 Apple Stores,我亦親自體驗了Genius Bar 的專業維修/支援服務,還有參加店舖舉辦的 Meet the Author,聽偶像 Stephen Fry 的講座及在索取簽名時和他說了兩句。

Meet the Author - Stephen Fry (2.2009)

2009年在英國唸書時,MacBook Pro 的 USB 插頭失靈,拿去 Regent Street 的店舖找 Genius 維修,但維修後 Backlit Keyboard 的燈卻亮不起來。拖了好一段時間,才再前往當時新開張的 White City 店使用 Genius 服務。不到 5 分鐘,Genius 說:「上次維修的傢伙忘了接駁電源!」我當時立即語帶相關地說:「What a genius! (果然是天才!)」

White City 的 Apple Store

這些年來,我不斷在Blog/Twitter說:「沒有 Apple Store 的香港不算一個國際城市!」或「希望 Apple Store 將會來到香港!」

萬眾期待的日子終於來臨,Apple Store 正式落戶香港,但我沒有前往參觀選購。

我知道今天將派發紀念 T-shirt,so what… 紅彤彤的 not my cup of tea…

想先睹為快嗎?我不是沒見識過 Apple Store,Apple Store 對我毫無新鮮感。

有需要享用甚麼服務嗎?沒有,MacBook Pro 上月剛維修妥當,之後自己把 Hard Drive 和 RAM 都升級了,現在電腦健步如飛。

參與 Tiger 和 Leopard 發佈活動獲得的 T-shirt

家中有兩件蘋果的 T-shirt,一件是 Mac OS X 10.4 Tiger 在跑馬地馬場開發佈會時答問題送的,另一件則是 Mac OS X 10.5 Leopard 在尖沙嘴一家酒店舉行開售派對時派發的。

兩次性質相同的聚會,一次是限量派發,另一次則是人人有份,但那時的 Mac/Apple 仍屬小眾;這次 Apple Store 落戶香港,大派紅衣 5,000 件,限量是限量,但我不稀罕。

我享受:

梅田店的恬靜(攝於2006年)

在倫敦 Regent Street 店的活動中與 Stephen Fry 合照

聖誕期間 Apple Store (Regent Street)的櫥窗裝飾

與一眾香港人一窩蜂湧往 Apple Store 朝聖,實在不合我的性格。



http://uituit.wordpress.com/2011/09/24/apple-store-%e6%ad%a3%e5%bc%8f%e8%90%bd%e6%88%b6%e5%9c%8b%e9%87%91%e4%b8%ad%e5%bf%83%ef%bc%8c%e4%bd%86%e6%88%91/