不確定一般 Data Mining 課程學校裡面是怎麼上的,印象中翻國內不同領域之相關文獻,

所著重之流程不盡相同,應是不同科系對於 Data Mining 之重點應不同。

 

資工 -> 著重演算法分析。

資管 -> 著重現成軟體實際操作。

其餘商管 (企管、財經、行銷等) -> 著重探勘結果後之分析與解釋。

 

站在商管角度而言,Data Mining 之目的乃是希望藉由一些現有之 recorder,

進行複雜、表面上看不出有任何關係的變數,探討是否存在著某些相關性變化等,

最有名、成功之 Data Mining 結果,應屬 Walmart 發現「啤酒與尿布」神奇的關係,

每個星期五晚上,會買啤酒的人大多也會買尿布,藉由此規則改變實體店面商品之擺設,

期望能帶動其他商品之銷售額。當然若能再以 Data Mining 發現,

某些股票之 K 線 (或其他構面、變量) 與未來市場之走向,不就代表賺錢的機會就變高了嗎?

 

對某些人而言,Data Mining 也許只是,

在完全沒有任何關係的二樣商品或事件裡,硬要以較科學化的方式「牽拖」在一起,

並不讓人感到是個明智的作法;但 Data Mining 重點應是在後半段,

當這些看起來沒任何相關性的任何資料,可以解釋其背後發生的原因,那它就是有價值的,

如星期五晚上想喝啤酒的男人,會順手去買小孩的尿布。

 

資料探勘裡前半段大多屬資料前置作業、敘述統計等,

中間講些 Classification、Clustering,

此二議題在 Data Mining 裡佔了大多篇幅,後面提一些演化式演算法 。

 

Classification 是已知要分哪些類別後,再根據現有資料,研究各變數與類別之間的關係,

如 ( 性別、年齡層、職業、教育程度、地區 ---> 會不會申辦信用卡),

這裡便是想探討哪些因素影響了申辦信用卡的原因,

一開始便知道輸入資料上的人,他們會不會申辦信用卡。

當然這例子很明顯以類神經網路方式可得到不錯之效果 ,

(前提是要將各變量先做相關性測試,把相關性高之變量排除),

其實做的便是 Classification。故也有人稱, Classification 是屬於監督式的分類,

因在原始資料中,手頭已有一些人有沒有申辦信用卡的紀錄。

 

Clustering 不少中文稱為「分叢」,和 Classification 相似,

最後結果都是有「幾個類別」跑出來;和 Classification 不同,

一開始只知道要分類,但一開始就不知道這些輸入資料是屬於哪些類別。

如,在一地區中由於沒有配水站,欲設之,但鑑於手邊資源有限與規劃要求,

欲設 5 個配水站。根據目前所有居民的居住位置 ,

問題一,這五個配水站該設在哪才能使得水管管線長度最少?

問題二,承問題一,每個配水站要分配哪些居民之用水?

上述問題在一開始只會知道所有居民的位置,但並不知道哪些居民是由哪些

配水站所供應,屬於「非監督式」學習。

 

實際上,Data Mining 最麻煩的步驟,應是事前資料的準備,

因實際資料裡面,常有一些雜訊、缺失等出現,這會花大半的時間;

再來是對於原始資料 scale 上之調整,scale 之調整藝術,

單出一份 paper 也不是問題。

edisonx 發表在 痞客邦 PIXNET 留言(0) 人氣()