字體:小 中 大 | |
|
|
2012/06/24 00:48:16瀏覽1862|回應3|推薦48 | |
引用文章「百傑真熱鬧」 誠摯地寄望主辦單位,對這個問題,不管賽前賽後,能提出令人信服的說明。只是恐怕會因為擔心漏氣,或牽涉商業機密之類理由,終究留下一團迷霧。這裡先按我自己的想法加以揣測評論,反正不是官網,看的人有限,自留心證就好。百傑賽官網有人不斷以公開羞辱為手段,打擊其他參賽者。當然亂槍打鳥,偶然中的也是有的;不過拿人家文章裡塞一些亂七八糟關鍵字大肆譏評,我實在忍不住好笑。官網對此事的答覆,同樣不著邊際糊里糊塗,什麼「每個關鍵字只計算一次」。問題根本不在那裡。真正的問題是:「關鍵字」和所謂「專業力」的關係,究竟在那裡?更進一步說,主辦單位所謂的「專業力」,具體定義到底是什麼? 接觸S Rank之初,直覺想到的,就是Google的Page Rank。Page Rank是用來評定搜尋排名的專利技術,也是Google打下「精確搜尋」名聲的利器。簡單來說,它根據若干數據,決定任一使用者輸入不特定關鍵字之後,搜尋結果的輸出順序;目的是讓愈符合使用者需求的網頁,出現在愈前面的位置。 這項技術的方法雖然公開,但計算公式一直保密。特別是當Google開放AdSense,讓展示廣告的網站經營者共享利潤之後,就有數不清的網站利用各種手段,爭取Google搜尋較前的排名,以便提高曝光率,賺取更多收入。這種扭曲Page Rank排名的方法,美其名曰「網站優化(SEO)」,直接打擊Google「精確搜尋」的信譽,影響廣告商投注意願,當然無法容忍。因此Page Rank必須多方調校,不斷與SEO較勁,消弭故意扭曲,才能維持Google在搜尋引擎界的令名。 S Rank的幾個力,看得出模仿Page Rank的痕跡。只不過土豆電腦的能耐,無法和世界級的搜尋引擎相比,於是想出利用臉書來計數,以便在預算內完成任務。除了專業力之外,其他三力不無道理。撇開人氣能否代表優質,這種屬於價值觀層次的問題,純就是否符合比賽要求來看:點閱率高,讚和分享的次數高,表示人氣也高,算是合理。 專業力則不然。依官網提示,專業力的分數,依文章中關鍵字多寡而定。我們不清楚官方究竟如何計算這項分數,但憑直覺的基本邏輯判斷,就難以信服這種評分方式。記得開賽之初有人質疑:主辦單位的資料庫裡,有多少關鍵字?不在資料庫裡的關鍵字,是否不能計分?我覺得這問題正中要害,也是整個「專業力」評分,令人莫名其妙的關鍵。 回到Page Rank。關鍵字是Google搜尋的重心,也是Page Rank的計分重點之一。對的關鍵字,會提昇Page Rank排名。很多SEO手段都圍著關鍵字打轉,包括灌入大量無意義詞彙在內。然而要注意的是,Page Rank是根據使用者輸入的關鍵字,所產生的動態回應,而不是事先有一個排名在那裡,出現某個關鍵字才拿來套。所謂關鍵字,是對使用者而言;Google的資料庫,並沒有特定關鍵字,而是根據使用者輸入做出篩選。 舉例來說,我想到張家界自助旅行,於是搜尋「張家界、旅遊、住宿、交通資訊」,其中「旅遊、住宿、交通資訊」各有八百萬到一千萬筆資料,「張家界」只有一萬筆,那麼誰的Page Rank最高?我想任何人都不難判斷,「張家界」應該擺在前面。那才是我要找的啊!關鍵字出現筆數愈少,結果才愈精準,Page Rank應該高才對。同樣含有「張家界」的一萬筆,再依出現次數及位置來評價。後者例如:大標題重於小標題,然後是粗斜體內文,最後是一般內文、註釋等。這樣排出來的順序,才會符合使用者期待。 「旅遊、住宿、交通資訊」這種一般、空泛的字眼,充其量只能用來把美食、親子類篩除過濾掉,對旅遊類本身的專業度而言,可說一點價值都沒有。假設我寫一篇張家界遊記,賣力介紹自然風光、人文背景,甚至與電影「阿凡達」的關係,卻沒有一個字出現在土豆電腦的資料庫裡,專業力可能因此很低,甚至趨近於零。這不怪異嗎? 所以,怎能怪參賽者,往文章裡灑一些連他自己都感到厭惡的土豆呢?肚臍眼想都知道,土豆電腦的資料庫,不可能有無限多的關鍵字,還要逐一權衡輕重,來為參賽者品頭論足。重點不在它有多少關鍵字,而在它漏掉多少。回到那個命中要害的問題:不在資料庫裡的關鍵字,難道就不能計分啦?這種評分方式,有根本的邏輯問題。我實在很好奇,主辦單位究竟如何設想,以及這種評分結果,到底代表什麼意義?但願終有一天能得到解答。 P.S. 也有一種可能手段,雖然不確定土豆電腦是不是、或能不能這樣做,但符合主辦單位以人氣為出發點的評選方式。舉例說,先經由某種方式(流量分析,也許),評定旅遊類前一百或一千名的人氣網站,然後把這些網站的所有內容抓下來分析,得到一個附權重的關鍵字表。再拿這個關鍵字表,去比對參賽者的文章,得到分數愈高的,內容就愈接近那一百或一千大網站,因此也可能是有潛力的高人氣候選人。 這種做法可以把評定個別關鍵字是否專業的勞什子工夫,轉移到判斷文章像不像某些專業網站。當然仍不免有盲點,譬如相似度高,可能只是文抄公罷了,未必怎麼專業;愈獨特的文章,相似度愈低,卻可能被評為不夠專業。然而倘若樣本數夠多,也經過適當調校,總比讓人胡亂填塞莫名其妙的關鍵字,要來得有說服力些。 這招不是我的發明,是若干年前,聽一位搞資料採集(Data Mining)的朋友說的。當時的目標,似乎是搞自動分類,把性質相近的文章湊在一塊兒。拿來評分,只能說未嘗不可;受評者服不服氣,就難說了。 |
|
( 興趣嗜好|電腦3C ) |