top of page
CKIP

CKIP為中研院所開發之中文斷詞系統,功能將一整篇的中文文章中的每個詞與字都斷開。由於詞為最小有意義且可以自由使用的語言單位,任何語言處理的系統都必須先能分辨文本中的詞才能進行進一步的處理,例如機器翻譯、語言分析、語言了解、資訊抽取。因此中文自動分詞的工作成了語言處理不可或缺的技術。以下為實際操作圖。

上圖為CKIP斷詞程式執行之結果

上圖為CKIP斷詞程式執行後之CSV檔輸出結果

上圖為執行CKIP斷詞程式前之評論內容

TF-IDF

Tf-Idf是“字彙頻率–反文件頻率”之縮寫,計算表示文件中字彙相關重要性的分數。

Tf表示字彙在特定文件中的重要性,Idf則表示字彙相對於整個文件集的重要性。

                詞頻Tf = 字詞在文章出現次數 / 文章總詞數
           逆向文字頻率Idf = 文件集中文章總數 / 字詞出現次數
         詞的重要程度Tf-Idf = Tf * Idf

而在Text Mining中TF-IDF便扮演了很重要的角色,

由於Text Mining是針對文字進行分析,且文字多屬半結構化或非結構資料,

因此要先對文字進行前處理(Pre-Processing),

並透過某些統計方法與演算法(例如:TF-IDF),對文字進行分析與運用

進而取得必要的資訊,作為決策的參考依據。
而在其應用當中我們必須知道這些字詞在文章中的重要程度,

所以利用TF-IDF加權技術來去進行評估。

上圖分別是將CKIP之斷詞後之結果txt檔再接下去跑TF-IDF之計算程式之後匯出的csv檔之結果。

© 2023 By Rachel Smith. Proudly created with Wix.com

bottom of page