解讀分詞與索引庫(kù)_SEO優(yōu)化教程
推薦:揭秘新手站長(zhǎng)最忌諱的幾點(diǎn)網(wǎng)站操作做站快有半年了,今天分享給大家。我不說(shuō)廢話了! 第一點(diǎn):不要過(guò)分做SEO 不要過(guò)多的SEO優(yōu)化,記住幾點(diǎn)就行了 1. 頁(yè)面標(biāo)題不要頻繁修改 這樣可能會(huì)導(dǎo)致降權(quán),新站如果降權(quán)恢復(fù)會(huì)很慢的。 2. 首頁(yè)可以做適當(dāng)?shù)膬?yōu)化操作 比如內(nèi)容頁(yè)就不要做過(guò)多的SEO了。 第
分詞是很多做SEO的人常聽(tīng)到的概念,為了讓大家在這個(gè)方面不會(huì)有疑惑,現(xiàn)在要來(lái)講一下分詞以及索引庫(kù)。這也是更深入的了解搜索引擎的開始。搜索引擎每天都是在處理一個(gè)基本的需求:用戶搜索一個(gè)關(guān)鍵詞,搜索引擎馬上找到相關(guān)的網(wǎng)頁(yè)給用戶。這個(gè)過(guò)程要怎么實(shí)現(xiàn)呢?下面就分步來(lái)了解這個(gè)過(guò)程。
首先搜索引擎要盡可能多的把互聯(lián)網(wǎng)上的網(wǎng)頁(yè)搜集下來(lái),這樣能提供大量的網(wǎng)頁(yè)給用戶查詢。這一部分由爬蟲來(lái)解決,順著互聯(lián)網(wǎng)上的鏈接一個(gè)個(gè)往下抓取。最后就有了一堆記錄著網(wǎng)頁(yè)各種信息的資料庫(kù)。目前的現(xiàn)狀,最后能使這個(gè)資料庫(kù)里有大概100多億個(gè)網(wǎng)頁(yè)。資料庫(kù)里記錄了這些網(wǎng)頁(yè)的URL,整個(gè)網(wǎng)頁(yè)的HTML代碼,網(wǎng)頁(yè)標(biāo)題等等信息。
然后,搜索引擎拿到用戶輸入的這個(gè)關(guān)鍵詞后,要從這個(gè)資料庫(kù)里把相關(guān)的網(wǎng)頁(yè)找出來(lái)給用戶。這里就碰到好幾個(gè)問(wèn)題了:
1,要怎么快速的從上100億個(gè)網(wǎng)頁(yè)里找出匹配的網(wǎng)頁(yè)的呢?
要知道這是從上百億的網(wǎng)頁(yè)里找符合這個(gè)關(guān)鍵詞內(nèi)容的網(wǎng)頁(yè),如果像用word里那種用ctrl + F 輪詢的查找方式的話,即使用超級(jí)計(jì)算機(jī),也不知道要消耗多少時(shí)間。但是現(xiàn)在的搜索引擎,在幾分之一秒里就實(shí)現(xiàn)了。所以一定是做了一些處理才實(shí)現(xiàn)的。
解決辦法也倒簡(jiǎn)單,就是建立一份索引庫(kù)。就像我們查《新華字典》一樣,我們不會(huì)翻遍《新華字典》的每一頁(yè)來(lái)查那個(gè)字在哪頁(yè),而是先去索引表那里找這個(gè)字,拿到頁(yè)碼后,直接翻到那頁(yè)就可以了。搜索引擎也會(huì)為上百億的網(wǎng)頁(yè)建立一個(gè)索引庫(kù),用戶查詢信息的時(shí)候,是先到搜索引庫(kù)里查一下要找的信息在哪些網(wǎng)頁(yè),然后就引導(dǎo)你去那些網(wǎng)頁(yè)的。
如下圖:

索引庫(kù)
2,索引庫(kù)里用什么樣的分類方式?
我們知道,《新華字典》的索引表是用字母列表或者偏旁部首的分類方式的。那么搜索引擎的索引庫(kù)里是怎么分類的?是不是也可以用字母列表的方式?搜索引擎如果以字母列表的方式排列索引庫(kù),那么平均每個(gè)字母下要查詢的網(wǎng)頁(yè)數(shù)量是 100億÷26=3.85億 ,也還是一個(gè)很大的數(shù)字。而且搜索引擎上,今天是100億個(gè)網(wǎng)頁(yè),過(guò)不了多久就是300億個(gè)網(wǎng)頁(yè)了。最后,終于找到一個(gè)解決辦法:索引庫(kù)里用詞語(yǔ)來(lái)分類。
因?yàn)楸M管互聯(lián)網(wǎng)上的網(wǎng)頁(yè)是不斷激增的,但是每一種語(yǔ)言里,詞語(yǔ)的數(shù)量都是相對(duì)固定的。比如英語(yǔ)就是一百多萬(wàn)個(gè)單詞,100億 ÷ 1百萬(wàn) = 1 萬(wàn);漢語(yǔ)是8萬(wàn)多個(gè)詞語(yǔ),100億÷8萬(wàn)=12萬(wàn)5千。都是計(jì)算機(jī)很容易處理得過(guò)來(lái)的。用詞語(yǔ)來(lái)分類還有一個(gè)好處,就是可以匹配用戶查詢的那個(gè)詞語(yǔ)。本來(lái)用戶就是要查這個(gè)詞語(yǔ)的,那我就按這個(gè)詞語(yǔ)去分類就是。所以,搜索引擎的索引庫(kù),最后就是這個(gè)樣子的:

模擬的索引庫(kù)
理論上,當(dāng)用戶輸入關(guān)鍵詞“mp3 player”搜索時(shí),搜索引擎就從 “mp3”那行 和 “player”那行里拿出同時(shí)都有的、交集的url來(lái)即可。上圖也是現(xiàn)在英文版的google.com上的真實(shí)排名情況,可以看到 www.winamp.com 這個(gè)網(wǎng)站在搜索“mp3”的時(shí)候排第4位,在搜索“player”的時(shí)候也排第4位。當(dāng)搜索“mp3 player”的時(shí)候,因?yàn)闆](méi)有其他網(wǎng)站比它更匹配這個(gè)詞語(yǔ),所以它排在了第一位。

排在第一
當(dāng)搜索引擎把一個(gè)網(wǎng)站抓取下來(lái)后,接著要做的事情就是把網(wǎng)頁(yè)里的詞語(yǔ)分開放到索引庫(kù)里。分詞在這個(gè)時(shí)候就要應(yīng)用到了,所謂的分詞,其實(shí)很簡(jiǎn)單,就是把詞語(yǔ)分開而已。英語(yǔ)的分詞好處理一點(diǎn),因?yàn)橛⒄Z(yǔ)的每個(gè)單詞之間是用空格分開的,基本上就只要處理一些虛詞、介詞,還有一些詞語(yǔ)的單復(fù)數(shù),變形詞等等。但是中文的分詞就復(fù)雜很多了,句子中的每個(gè)字都連在一起,有時(shí)候即使是人來(lái)判斷,都還有產(chǎn)生歧義的時(shí)候。中文的分詞有很多方法,也很容易弄懂的,如正向切分法,逆向切分法等等,網(wǎng)上有很多相關(guān)的資料。
谷歌的中文分詞方法是從國(guó)外一家第三方公司買的。百度的分詞方法是自己創(chuàng)立的,可能在詞庫(kù)上面比谷歌有點(diǎn)優(yōu)勢(shì)。不過(guò)其他方面差了一些。當(dāng)爬蟲找到一個(gè)網(wǎng)頁(yè)的時(shí)候,在搜索引擎看來(lái),這個(gè)網(wǎng)頁(yè)就是一大堆詞語(yǔ)的組合�;玖鞒倘缦拢�

搜索引擎的處理過(guò)程
看完這個(gè)流程圖,應(yīng)該能給大家在做內(nèi)部?jī)?yōu)化的時(shí)候有所啟發(fā)的。我建議大家再去看一下《把Web標(biāo)準(zhǔn)化進(jìn)行得更徹底一點(diǎn)》這篇文章,還有《豐富網(wǎng)頁(yè)摘要”,讓你的網(wǎng)站與眾不同》以及《SEO案例:錨文本、關(guān)鍵字、nofollow、Web標(biāo)準(zhǔn)化(一)》和 《SEO案例:錨文本、關(guān)鍵字、nofollow、Web標(biāo)準(zhǔn)化(二)》。那些文章和這篇文章一樣,都是在講同一個(gè)問(wèn)題。
一定要站在搜索引擎的角度,把它的這些原理了解清楚了,才會(huì)讓你明白哪些因素才是你應(yīng)該關(guān)注的重點(diǎn)。有人說(shuō): SEO就是重在細(xì)節(jié)。這應(yīng)該是經(jīng)驗(yàn)之談。但是不知道大家有沒(méi)有想過(guò)的是:是不是可能原本這些看似細(xì)節(jié)的東西,其實(shí)就是應(yīng)該注意的重要的東西呢?如果你不能控制好你的排名,有沒(méi)有想過(guò)可能你以前特別在意的一些SEO因素,其實(shí)有些并不是重點(diǎn)?;而只是你把影響排名的部分因素弄錯(cuò)了?
上面的很多知識(shí),其實(shí)在《搜索引擎營(yíng)銷:網(wǎng)站流量大提速》里都有提及的。那本書要去精讀的原因之一就是它講了很多看似很普通的原理,但是都是有用的。比如在選關(guān)鍵詞的時(shí)候,也可以參考一下這個(gè)詞語(yǔ)的索引量。從上面的原理可以看出,這個(gè)索引量反應(yīng)了這個(gè)詞語(yǔ)在這種語(yǔ)言當(dāng)中人們使用的流行程度。所以國(guó)外有些計(jì)算關(guān)鍵詞KEI指數(shù)的公式里,也把這個(gè)關(guān)鍵詞的索引量加入了進(jìn)來(lái)。
分享:淺談被忽略的SEO利器robots.txt竹影清風(fēng)做網(wǎng)站也有些年頭了,應(yīng)各位站長(zhǎng)朋友的要求今天跟各位分享一點(diǎn)我的點(diǎn)滴經(jīng)驗(yàn)。今天的話題重點(diǎn)是robots.txt。各位站長(zhǎng)朋友可能比較少關(guān)注robots.txt,但善用robots.txt絕對(duì)對(duì)你的網(wǎng)站是有百益而無(wú)一害的。 聲明:此文僅適合新手,老鳥請(qǐng)優(yōu)雅地飄過(guò)。
- B2B網(wǎng)站SEO優(yōu)化實(shí)戰(zhàn)經(jīng)驗(yàn)分享
- 淺析如何提高SEO優(yōu)化團(tuán)隊(duì)效率
- 谷歌如何評(píng)價(jià)一篇博文是否是軟文
- 盧松松:Bing與Google搜索排名因素研究
- 盧松松:給谷歌的蜂鳥算法潑瓢冷水
- 提高移動(dòng)站在百度質(zhì)量度等級(jí)的詳細(xì)說(shuō)明
- 谷歌推出網(wǎng)站人工干預(yù)通知
- 優(yōu)化技巧:如何設(shè)置自定義503錯(cuò)誤頁(yè)面?
- 解讀SEO元素周期表
- 網(wǎng)站SEO最高境界之從 “人性化” 出發(fā)
- 社會(huì)化媒體營(yíng)銷是如何對(duì)企業(yè)產(chǎn)生相應(yīng)影響
- 小站長(zhǎng)們?cè)撊绾蚊鎸?duì)新一輪的百度算法調(diào)整
SEO優(yōu)化教程Rss訂閱網(wǎng)站運(yùn)營(yíng)教程搜索
SEO優(yōu)化教程推薦
- 剖析robots.txt文件中應(yīng)該屏蔽哪些目錄
- 網(wǎng)站內(nèi)容優(yōu)化:關(guān)鍵詞分析工具
- 拒絕沒(méi)有基礎(chǔ)的seo優(yōu)化
- 大型網(wǎng)站的導(dǎo)航應(yīng)該怎么設(shè)計(jì)
- 齊寧:如何面對(duì)搜索引擎降權(quán)
- 用戶搜索行為與關(guān)鍵詞分析(一)
- 汽車音響網(wǎng)站關(guān)鍵詞策劃與思考
- 解析百度更新后排名下降原因
- 分析網(wǎng)站迅速打破降權(quán)局面的三個(gè)步驟
- 《我是歌手》樣本剖析:電視秀的營(yíng)銷、觀看、評(píng)價(jià)方式,統(tǒng)統(tǒng)在變了!
- 相關(guān)鏈接:
- 教程說(shuō)明:
SEO優(yōu)化教程-解讀分詞與索引庫(kù)
。