大理SEO培訓:申永SEO:基于TFIDF的SEO系統底層設想

SEO技術 黑帽SEO培訓 瀏覽

小編:最近搞的一套系統里面用到了一套基于TFIDF算法的東西,打算把流程設想一下,整理開發成一套系統化的工具。 首先要使用TFIDF得明白它需要的幾個東西 1是要處理的文章,得分詞之后

  最近搞的一套系統里面用到了一套基于TFIDF算法的東西,打算把流程設想一下,整理開發成一套系統化的工具。

  首先要使用TFIDF得明白它需要的幾個東西

  1是要處理的文章,得分詞之后,2是核心計算。

  嘗試了10萬個簡單的文章處理之后,發覺這塊并不是想像中的那么簡單。

  光是計算TFIDF這塊,就把8個G的內存全部占滿了。

  目前想到的方案大概是:

  1、使用盤古分詞,清理標點符號做為停用詞進行過濾,生成切詞之后的結果。

  必要時可以加一些自定義詞庫到詞庫中備用,外開二元分詞功能保證結果的準確性。

  越大量的文章越要使用多線程進行處理。這塊還要研究一下。

  2、使用TFIDF進行詞頻計算,傳入分詞之后的文章,計算所有詞,所在詞在某個文章中的TF和IDF。越大量的數據越難以處理。

《大理SEO培訓:申永SEO:基于TFIDF的SEO系統底層設想》當前網址:http://www.bdfdl.com/post/201909301155.html

?
你可能喜歡的:
国产免费毛片在线观看