當前位置:法律諮詢服務網 - 法律援助 - 法律語料庫在線網站推薦

法律語料庫在線網站推薦

想必妳需要知道哪些詞在壹篇文章或壹本書中出現的頻率最高。妳可能認為這需要復雜的付費軟件甚至編寫程序,但事實並非如此。有壹個特別簡單的在線詞頻分析工具。

閑話少說,直接進入網站:

corpus.org/

這是教育部語言應用研究所計算語言學研究室開發的“在線語料庫”。這個網站的壹個功能是詞頻分析。讓我以分析文本《阿q正傳》為例來介紹如何使用這個網站。

阿q正傳* *的統計結果是2948個單詞和符號,這裏的“出現頻率”的單位是百分比(%):

第壹個詞是“的”,共出現712次,占全文的4.4453%。對嗎?讓我們檢查壹下原詞:

在word中,我們發現了747個“的”,比上述統計結果多了35個。為什麽?

原因很簡單。壹些“得”被切割成其他單詞,例如“喜歡”、“其他”和“確實”,這些單詞加起來有747個,不是少數。

不過這個工具確實有壹些不完善的地方,比如同壹個單詞反復出現或者被剪錯了,所以使用的時候壹定要在excel中過濾。

如上圖所示,趙、、都是重復出現的人物,也出現在《甲》中。檢查這個詞,趙佳這個詞確實出現了11次。

然而,這種不完美並不妨礙使用。畢竟這個工具可以提供壹個可靠的線索,準確的數據需要在excel中仔細統計。

我們來看看《阿q正傳》中荀翁最喜歡用哪些詞。

單詞:

加起來,這20個字* * *出現了5118次,占全文的31.95%!

詞匯:

“阿q”在語料庫中不是壹個詞,所以沒有被刪減。這個詞在文章中出現了274次,應該排在第壹位。

從結果來看,荀翁和其他人壹樣,喜歡使用口語化的詞語。在壹篇1萬多字的文章中,他用了“因為”45次“和”35次“啊!但荀翁就是荀翁,這些平凡的文字在他的作品中出神入化,構成了文學經典。

如果妳感興趣,不妨試試這個工具。

  • 上一篇:2010質量專業基礎理論與實踐(初級)答案及詳解(8)
  • 下一篇:法學專業包括哪些專業?
  • copyright 2024法律諮詢服務網