閑話少說,直接進入網站:
corpus.org/
這是教育部語言應用研究所計算語言學研究室開發的“在線語料庫”。這個網站的壹個功能是詞頻分析。讓我以分析文本《阿q正傳》為例來介紹如何使用這個網站。
阿q正傳* *的統計結果是2948個單詞和符號,這裏的“出現頻率”的單位是百分比(%):
第壹個詞是“的”,共出現712次,占全文的4.4453%。對嗎?讓我們檢查壹下原詞:
在word中,我們發現了747個“的”,比上述統計結果多了35個。為什麽?
原因很簡單。壹些“得”被切割成其他單詞,例如“喜歡”、“其他”和“確實”,這些單詞加起來有747個,不是少數。
不過這個工具確實有壹些不完善的地方,比如同壹個單詞反復出現或者被剪錯了,所以使用的時候壹定要在excel中過濾。
如上圖所示,趙、、都是重復出現的人物,也出現在《甲》中。檢查這個詞,趙佳這個詞確實出現了11次。
然而,這種不完美並不妨礙使用。畢竟這個工具可以提供壹個可靠的線索,準確的數據需要在excel中仔細統計。
我們來看看《阿q正傳》中荀翁最喜歡用哪些詞。
單詞:
加起來,這20個字* * *出現了5118次,占全文的31.95%!
詞匯:
“阿q”在語料庫中不是壹個詞,所以沒有被刪減。這個詞在文章中出現了274次,應該排在第壹位。
從結果來看,荀翁和其他人壹樣,喜歡使用口語化的詞語。在壹篇1萬多字的文章中,他用了“因為”45次“和”35次“啊!但荀翁就是荀翁,這些平凡的文字在他的作品中出神入化,構成了文學經典。
如果妳感興趣,不妨試試這個工具。