正在閱讀:

百度中文分詞切詞技術算法對SEO有影響嗎?

3,253

百度中文分詞切詞技術算法對SEO有影響嗎?

中文分詞(Chinese Word Segmentation)指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程。中文分詞技術屬于自然語言處理技術范疇,對于一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計算機也能理解?其處理過程就是分詞算法。

中文分詞對于搜索引擎來說,最重要的并不是找到所有結果,因為在上百億的網頁中找到所有結果沒有太多的意義,沒有人能看得完,最重 要的是把最相關的結果排在最前面,這也稱為相關度排序。中文分詞的準確與否常常直接影響到對搜索結果的相關度排序。從定性分析來說,搜索引擎的分詞算法不同,詞庫的不同都會影響頁面的返回結果。

現有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統計的分詞方法。按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。一般常用的幾種機械分詞方法如下:

1)正向最大匹配法(由左到右的方向)

2)逆向最大匹配法(由右到左的方向)

3)最少切分(使每一句中切出的詞數最小)

4)雙向最大匹配法(進行由左到右、由右到左兩次掃描)

很多時候一個網站的流量更多的來源于長尾詞流量,中文分詞算法對SEO具有指導意義。可以通過中文分詞的研究讓我們獲得更多的百度長 尾流量。

百度分詞是根據內容中,第一次出現關鍵詞相關詞為標準來分的。例如“大連網站優化”這個詞,如果你的正文中第一個出現的是“大連” 這個詞,那么你的頁面上的關鍵詞就會被拆分成“大連”和“網站優化”兩個詞,標題中一定要包含關鍵詞,但不一定要完全匹配,但內容中出現的關鍵詞是要跟百度分詞完全匹配的,在完全匹配中又會根據文件URL路徑的深度來進行排序,在關鍵詞都完全匹配的情況下,比如說目錄比文件有優先權,根目錄下的文件要比二級目錄下的文件有優先權,完全匹配的會排在前面,然后再是部分匹配的。

在關鍵詞沒有完全匹配的情況下,如果有分詞,比如說:“大連SEO”這個關鍵詞,有一個網頁里第一次出現的關鍵詞是“大連”,并且有適當的關鍵詞密度,但是這個網頁中卻沒有“SEO”這個關鍵詞,而另一個網頁里第一次出現的關鍵詞是“SEO”,那么這個網頁的關鍵詞就會被拆分成“大連”和“SEO” 兩個詞,雖然第二個網頁里包含有“大連”和“SEO” 但是第一個網頁還是會排在第二個網頁的前面,這說明關鍵詞的前面部分是最重要的。關鍵詞第一部分出現的頻率是排名的關鍵,比如說“大連網站優化”,如果兩個網頁都沒有完全匹配,都是含有兩個分詞,那么“大連”這個分詞密度高的網頁將會排在前面。如果完全匹配,但是關鍵詞第一出現是在頁面內容的最后面部分,那么這個網頁的排名將比前面這些頁面還要低。

百度根據第一次出現的相關關鍵詞分切詞,如果第一次出現的相關關鍵詞是關鍵詞的尾部,那么就從后面開始切,如果是前面部分就從前面開始切,也就是根據網頁內容的順序和反序進行分詞,順序的時候就是以關鍵詞前半部分為起點,反序的時候就是以關鍵詞的后半部分為起點。例如:“大連姜文SEO?”這個關鍵詞,如果你的網頁中第一次出現的關鍵詞是“大連”,那么你這個頁面的關鍵詞會被拆分成”大連” 和“姜文SEO”兩個詞。可以根據百度的分切詞原理,自己來選擇比較好做的關鍵詞頭部(也就是調整你網頁內容中第一次出現的關鍵詞)。也就是進行人為分詞切詞,百度會進行從前往后判斷,也會從后往前面切。

如果在關鍵詞沒有完全匹配的情況下,并且關鍵詞出現得不完整,比如說:大連SEO這個詞,網頁的內容包含的關鍵詞中如果沒有“大連”這個詞, 那么分切詞就會從“SEO”開始,但是這樣的網頁都會排在比較靠后了,因為你關鍵詞的前部分都沒有包含。

缺詞的情況下下,如果與不缺詞的網頁進行比較,那還是根據分切詞前部分的密度進行排序,也就是說按照切詞的順序,如果切出來的詞,前部分的密度比后部分的密度比例大是關鍵,例如一個網頁中前部分與后部分關鍵詞的比例是1:2。另外一個網頁的比例是1:6。那么當然前面的那個網頁排名要靠前。同樣在缺詞的情況下,切出來前詞短的排名有優勢。中文分詞工具可以自行去百度搜索,這里就不詳細說了。

留下腳印,證明你來過。

*

*

流汗壞笑撇嘴大兵流淚發呆摳鼻嚇到偷笑得意呲牙親親疑問調皮可愛白眼難過憤怒驚訝鼓掌
法甲射手榜