Read for Joy: 把茶加進牛奶，和把牛奶加進茶裡，哪一種比較好喝？

　　1920年代後期的一個夏日午後，一群大學研究員與他們的女眷及訪客，正坐在英國劍橋的戶外餐桌旁，悠閒地享受著下午茶。忽然有位女士堅稱，下午茶的調製順序對風味有很大的影響，把茶加進牛奶裡，和把牛奶加進茶裡，兩者喝起來完全不同。席間那些有科學頭腦的紳士們都對這種說法嗤之以鼻，怎麼會不一樣？他們完全無法理解兩種混合結果的化學成分會有什麼差異。但是有個身材瘦小、嘴上的小鬍子已開始變灰白的紳士卻緊抓住這個問題。

　　他很興奮地說：「我們來檢定這個命題。」並立刻著手準備實驗。他調製很多杯不同的茶，有些先放茶水再加牛奶，有些先放牛奶後加茶水，然後一杯杯拿給那位主張味道不同的女士分辨。

　　走筆至此，我想有些讀者會對這項實驗不以為然，認為只是夏日午後的一個小消遣，他們可能會說：「這位女士能不能分辨不同茶湯的風味有什麼關係？這種芝麻蒜皮的小問題根本沒有科學價值，這些人應該把聰明才智放在一些對人類社會有貢獻的重要事情上，不應該不務正業，浪費時間。」

　　或許有人會聯想到這是「英國研究」。

　　不幸的是，不管外行人如何看待科學與科學的重要性，依照我的經驗，大部分的科學家之所以從事研究工作，是對結果感興趣，以及能從研究過程中獲得知性的刺激與滿足。優秀的科學家很少是基於成果的重要性而努力工作的，在劍橋的那個晴朗夏日午後也是一樣。那位女士可能分辨得出不同的茶，也可能分辨不出，但其中的樂趣在於找出一種方法來判斷她的說法對不對，於是在「小鬍子」的指導下，大家開始討論該如何進行判斷。

　　很多人都熱心參與，協助小鬍子設計實驗的飲料，幾分鐘內，他們就採用很多不同的方法調製茶，準備給那位女士品嚐，但她並不知道每杯茶的調法。最後，答案揭曉的時刻來臨，小鬍子端給她第一杯茶，她啜了一口，然後宣稱這一杯事先放茶再加牛奶。小鬍子記下她的說法，不發一語地再送上第二杯茶……

　　我是在1960年代末聽到這段故事的，而告訴我這個故事的人那天下午也在場。他就是史密斯（Hugh Smith，但他都以H. Fairfield Smith這個名字來發表科學論文），我認識他的時候，他是康乃狄克大學的統計學教授……。（《統計，改變了世界 The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century》頁16）

　　留著小鬍子的紳士是費雪（Sir Ronald A. Fisher，1890-1962，英國統計學家），當時差不多快40歲了，後來被冊封為勳爵士。在1935年，費雪寫了《實驗設計The Design of Experiments》這本書，在第二張就提到那次品嚐下午茶的實驗。在書裡，費雪談到那位女士及她的看法，並把這當做一個假設性的問題。他考慮了各種可設計出的實驗方法，來測試那位女士是否能分辨出不同的茶。在設計實驗時碰到的問題是，如果只拿一杯茶給她品嚐，她有百分之五十的機會猜出這杯茶的調製方法，就算她其實分不出來，也有同樣大的機會；如果給她兩杯茶，她還是有機會猜對，事實上，如果她知道這兩杯茶以不同的方法調成，她可能一次就全部猜對（或全部猜錯）。

　　同樣的，即使她真的可以分辨其中的不同，她還是有機會弄錯，或是其中一杯的茶與牛奶沒有充分混合，又或者在泡茶的時候，茶水的溫度不夠高，影響了茶的味道。再不然，她可能試了10杯茶，其中9杯都說對了，只有1杯說錯──就算她真的能分辨，這情況還是有可能發生。

　　在書裡，費雪討論了這樣一個實驗的各種可能結果，描述該如何決定要準備多少杯茶，依照什麼順序拿給她，是否該讓她知道試喝的順序以及該透露多少。他依照她的答對與否，計算出各項結果的機率。……

　　費雪這本有關實驗設計的書，是20世紀前半掃過所有科學領域的一場革命的重要因素。早在費雪之前，科學實驗已進行了幾百年……。

　　1935年寫的書，距離現在不到一百年的時間。

　　實驗是一種累積知識的工具，但費雪並沒有發現到這一點意義。在費雪的年代以前，實驗總帶著科學家濃厚的獨特風格，一流的科學家可以做出很有價值的實驗，產生新知識，而二流科學家只是忙於各種實驗，蒐集大量數據，但對知識的累積沒什麼用處。……

　　在19世紀，科學家很少發表自己的實驗結果，他們僅描述結論，並公布那些能「證明」此結論真實性的數據。孟德爾(Gregor Mendel)並沒有把所有豌豆培育實驗的結果公布出來，而只是敘述了自己的實驗步驟，接著寫道：「兩組實驗中的前10株豌豆或許能做為一個實例，來說明……」（在1940年代，費雪檢驗了孟德爾提出的數據「實例」，發現這些數據完美得不像真的，根本沒有展現應有的隨機程度。）

　　雖然科學是從審慎思考、觀測與實驗發展而成的，但究竟要怎麼做實驗，卻從來沒有人提及，所有的實驗結果通常也不會公布出來給大家看。

　　在19世紀末至20世紀初的農業研究中，上述情況更為明顯。20世紀初，費雪任職於羅森斯特農業試驗所(Rothamsted Agriculture Experimental Station)，在他到職之前，該試驗所已進行實驗研究各種不同的人工肥料，前後長達90多年。他們的做法大致如下：先將磷肥與氮肥的混合物均勻撒在整片田裡，然後種植作物，在收成時再記錄收穫量及該年夏季的雨量。他們會精心選用公式，以「調整」每塊田或每年的收成量，以便比較不同的田的收穫量，或同一塊田在不同年度的產量。他們稱這些公式為「肥力fertility index」，每個農業試驗所都擁有自己的肥力，並且相信它比別人的指數更準確。

　　90多年的實驗成果，僅是一大堆未經發表、毫無用處的混亂數據：有些品種的小麥似乎對某種肥料的反應優於其他品種，但這情形只發生在降雨過量的年度；而其他實驗似乎顯示，若第一年施用鉀硫化物，第二年改用碳酸硫化物，會使某些品種的馬鈴薯產量增加，但對別的品種無效。這些人工肥料實驗最多只能透露，其中某些肥料大概、或許、也許在某些時候對某類農作物有用，其他細節統統不知道。

　　身為一個卓越的數學家，費雪首先研究的，就是這些農業科學家用來修正實驗結果的肥力，進而以該指數解釋不同年度天氣變化所造成的差異，最後再檢驗其他農業實驗單位使用的肥力。當他把這些指數化簡為基本代數式時，卻發現這些指數根本就是相同公式的不同變化形式，換句話說，長久以來彼此激烈競爭的不同指數，所做出來的結果實際上是完全相同的。1921年，他在重量級農業期刊《應用生物學年報Annals of Applied Biology》上發表論文，指出用哪種肥力並沒有任何差異，他同時表示，這些調整不足以表示不同田地在收成上的差異。這篇非凡的論文，為一場延燒20年的科學論戰畫上了休止符。

　　接下來，費雪繼續研究過去90年間降雨量和作物收成的數據，發現降雨量對農作物產量的影響，遠大於肥料對產量的作用；若借用後來費雪在發展實驗設計理論實用的字眼，我們會說「各年天氣差異」與「各年人工肥料的不同」這兩個變數是交絡的(confounded)，意思就是，靠這些實驗數據，我們沒有辦法區分這兩種因素對作物收成的影響。搞到最後，90年來的實驗與20多年的科學論戰幾乎是白忙一場，毫無收穫！

　　這百年來科技能夠快速進步，應該跟能夠避免類似這樣的虛功有關。也想起《無米樂》中崑濱伯記錄數據的那一幕。

　　這件事讓費雪開始思考實驗與實驗設計的問題，而他最後的結論是，科學家應該從潛在實驗結果的數學模型著手。他所說的數學模型，是指一組方程式，其中有些符號代表我們想經由實驗蒐集到的數據，而其餘的符號則代表實驗的全部結果。在考量科學問題時，科學家必須先從實驗中取得數據，再由這些數字計算出恰當的結果。

　　我們現在來看看下面這個「老師與學生一對一」的簡單例子。老師想找個方法，瞭解一下某學生的學習成效，因此他做了一個「實驗」：他給這個學生一組試題，每道試題的評分範圍都介於0到100分之間。只靠一次考試的分數，很難判定學生的學習成效。可能他剛好沒讀到考卷上的那一點東西，卻弄懂許多沒出現在考卷上的東西；可能在考試當天他正好頭疼，身體不舒服；又或許他那天早晨被父母責備，所以心情不好。總而言之，很多原因會使學生的某一次考試表現失常。因此，這個老師打算採用多次小考，再以所有小考的平均分數評量學生的表現，這比只考一次試要好得多。在這個例子中，學生的學習成效是實驗的結果，而每次小考的分數就是數據。

　　那麼老師應該怎麼進行這些小考呢？這些小考是不是只要涵蓋幾天前剛教過的內容？或是也要包括先前教過的所有範圍？他應該每週考一次？還是每天考？或者在每個單元結束的時候考？這些都是在設計實驗時需考慮的問題。……

　　這問題就像升學是要像聯考「一試定終身」，還是要採用在學成績。

　　在《實驗設計》一書裡，費雪舉了幾個實驗設計的絕佳範例，並推導出優良設計的一般規則。但是，費雪提出的方法牽涉到非常複雜的數學，因此大部分的科學家沒有辦法自行設計所需的實驗，只能按照費雪在書裡提供的設計範例，依樣畫葫蘆。

　　那些農業科學家瞭解到費雪實驗設計的偉大價值，因此不久之後，費雪的方法就成為英語系國家在農業科技上的主流學派。在這之後，整個科學界以費雪的研究為起點，發展出描述不同實驗設計的方法，這些實驗設計已廣泛應用於農業之外的領域，包括醫學、化學與工業上的品質管制。……

　　至於那位試喝下午茶的女士最後怎麼了？費雪並沒有描述那個夏日午後在劍橋所做的實驗結果。但史密斯教授告訴我，她分辨出每一杯茶，完全答對。厲害吧！（《統計，改變了世界 The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century》頁19）

　　想起大學一年級上統計課時，哀號一片，那時如果能讀到這本透過科學史，介紹統計概念如何發明出來跟實際運用的書，面對的就是許多有趣的故事，而不是冰冷的數學公式了。

相關文章：
　　是科學？還是偽科學？
　　我是懷疑論者，不是鐵齒
　　存活者偏差(survivorship bias)與騙術
　　合格的民調應該要公布哪些資料？
　　為什麼網路民調跟部落格blog上的意見調查不能輕信？
　　數字可以怎樣「詐」我們
　　學習觀察力，培養分析力，擁有判斷力

Read for Joy

TAAZE讀冊生活

最近7天熱門文章

熱門文章

關於Ming-Tsung

搜尋此網誌

網誌分類

2012年1月26日星期四

把茶加進牛奶，和把牛奶加進茶裡，哪一種比較好喝？

0 意見:

加入臉書粉絲團

訂閱

航跡軌道