關(guān)于代理商模板
超值服務(wù)提供卓越產(chǎn)品
數(shù)量的數(shù)據(jù)需要搜索引擎去索引,索引后還是海量的數(shù)據(jù),要能精準(zhǔn)搜索到自己需要的信息,需要遵循一定的技巧和方法。
搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費(fèi)鏈接列表等。百度和谷歌等是搜索引擎的代表。
海量規(guī)模;
分散無(wú)序;
動(dòng)態(tài)更新,不穩(wěn)定;
種類或形式多種多樣;
非結(jié)構(gòu)化或半結(jié)構(gòu)化;
主義冗余、質(zhì)量缺乏控制;
需求和使用方式個(gè)性化;
早期的搜索引擎:早期以AltaVista、Excite為代表,用于自動(dòng)采集網(wǎng)頁(yè)的“機(jī)器人”程序相對(duì)較弱,一般只對(duì)網(wǎng)頁(yè)的標(biāo)題、URL等信息進(jìn)行自動(dòng)索引,對(duì)返回的檢索結(jié)果有時(shí)也不排序;
全文搜索引擎的普及:對(duì)網(wǎng)頁(yè)的全文進(jìn)行自動(dòng)采集與索引,支持全文檢索;
4.1 按內(nèi)容或數(shù)據(jù)收錄的范圍分
4.1.1 綜合類搜索引擎:如google、百度;
4.1.2 專業(yè)類搜索引擎
也叫垂直搜索引擎,是針對(duì)特定的行業(yè)、領(lǐng)域、主題的專門搜索引擎。由于只面對(duì)一個(gè)方面,垂直搜索提供的結(jié)果更加專業(yè)、深入、具體和有序。如mp3搜索,結(jié)果全是歌曲,有歌詞,能方便地試聽(tīng)。除mp3搜索外,常用的有圖片搜索、視頻搜索、新聞搜索。如果想找圖片、視頻、了解新聞,那么直接用相應(yīng)的垂直搜索無(wú)疑更高效。如,Business
4.2 按信息的組織方式或檢索方式分:
4.2.1 索引式搜索引擎:如google、百度;
4.2.2 目錄式搜索引擎:Yahoo Galaxy go.com goguides
4.2.3 元搜索引擎:萬(wàn)緯 MetaCrawler Mamma Search Dogpile ixquick; fefoo limmz
4.2.4 終端元搜索引擎軟件:WebFerret 颶風(fēng)
4.2.5 集合式搜索引擎:該搜索引擎類似元搜索引擎,區(qū)別在于它并非同時(shí)調(diào)用多個(gè)搜索引擎進(jìn)行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。
4.2.6 門戶搜索引擎:AOLSearch、MSNSearch等雖然提供搜索服務(wù),但自身既沒(méi)有分類目錄也沒(méi)有網(wǎng)頁(yè)數(shù)據(jù)庫(kù),其搜索結(jié)果完全來(lái)自其他搜索引擎。
5.1 布爾邏輯檢索:嚴(yán)格意義上的布爾檢索法是指利用布爾邏輯運(yùn)算符連接各個(gè)檢索詞,然后由計(jì)算機(jī)進(jìn)行相應(yīng)邏輯運(yùn)算,以找出所需信息的方法。它使用面最廣、使用頻率最高。布爾邏輯運(yùn)算符的作用是把檢索詞連接起來(lái),構(gòu)成一個(gè)邏輯檢索式。
5.2 截詞檢索(truncation searching):用截?cái)嗟脑~的一個(gè)局部進(jìn)行檢索,并認(rèn)為凡滿足這個(gè)詞局部中的所有字符的資料,都為命中的資料;截詞是指用符號(hào)代替變化的部分。如“system?"、"comput?"、"wom?n"、"?ology";
5.3 字段限定檢索(limit searching):限定在數(shù)據(jù)庫(kù)記錄中的一個(gè)或幾個(gè)字段范圍內(nèi)查找檢索詞;
5.4 詞位置檢索:指限定檢索詞之間的位置關(guān)系;(proximate searching)
5.5 聚類檢索:首先要把將全部資料按相似度進(jìn)行聚類歸檔,檢索時(shí)直接在類目?jī)?nèi)匹配;
5.6 相關(guān)反饋與提問(wèn)式擴(kuò)展技術(shù):指系統(tǒng)對(duì)檢索詞進(jìn)行適當(dāng)?shù)男拚笤龠M(jìn)行檢索;
5.7 可視化檢索技術(shù):對(duì)檢索詞構(gòu)造、檢索過(guò)程、檢索結(jié)果都可考慮可視化;
6.1 網(wǎng)頁(yè)快照:是搜索引擎對(duì)該鏈接有效時(shí)在其服務(wù)器做的一個(gè)備份;
6.2 高級(jí)搜索:可以讓我們不輸入搜索引擎的語(yǔ)法就能使用搜索引擎支持的很多功能,以縮小搜索范圍、提供更精確的搜索結(jié)果。
6.3 搜索結(jié)果頁(yè):用戶在輸入關(guān)鍵詞,單擊搜索按鈕后,搜索引擎進(jìn)入的頁(yè)面,顯示出根據(jù)關(guān)鍵詞做出的搜索結(jié)果列表。每一項(xiàng)內(nèi)容一般包括統(tǒng)計(jì)行、網(wǎng)頁(yè)標(biāo)題、網(wǎng)頁(yè)摘要、網(wǎng)址、網(wǎng)頁(yè)快照等內(nèi)容;
6.4 搜索語(yǔ)法:利用語(yǔ)法可以進(jìn)行更復(fù)雜的條件搜索,可大大提高搜索的效率和精度;需要注意的是,所有搜索引擎可能有一些共同的語(yǔ)法規(guī)則,也有自己的規(guī)則,另外,隨著某一搜索引擎的發(fā)展與完善,自身的語(yǔ)法規(guī)則可能也會(huì)有不斷的更新和完善;
6.5 搜索引擎默認(rèn)搜索類別,“網(wǎng)頁(yè)”:其實(shí)是搜索綜合的內(nèi)容,包括文本、圖片、視頻、音頻等,網(wǎng)頁(yè)是網(wǎng)絡(luò)基本的單元,一切內(nèi)容都可納入其中;“網(wǎng)頁(yè)”搜索內(nèi)容全面、豐富、包羅萬(wàn)象,但往往也需要更多的時(shí)間去篩選需要的內(nèi)容;與之相對(duì)應(yīng)的是垂直搜索(也叫分類搜索,對(duì)應(yīng)于搜索引擎上的其它選項(xiàng)卡),由于只面對(duì)一個(gè)方面,垂直搜索提供的結(jié)果更加專業(yè)、深入、具體和有序。
谷歌的神秘面紗包括:一、軟件 二、硬件 三、集群平等處理機(jī)制。
谷歌軟件的3個(gè)核心要素:谷歌文件系統(tǒng)、谷歌的分布式存儲(chǔ)系統(tǒng)和處理龐大數(shù)據(jù)的程序設(shè)計(jì)模式。
硬件卻是一般的服務(wù)器、處理器、硬盤和內(nèi)存等。
服務(wù)器的集群能在半秒之內(nèi)回應(yīng)700至1000臺(tái)服務(wù)器的處理搜索請(qǐng)求。
Google作為全球排名第一的搜索引擎,面向全球提供多語(yǔ)種的搜索服務(wù),由其服務(wù)器規(guī)模,可以想像全球的數(shù)據(jù)規(guī)模的大小。
7.1 谷歌每天需要存儲(chǔ)驚人的數(shù)據(jù)量,需要上述的硬件增加和軟件匹配;
7.2 谷歌在全球多個(gè)一線國(guó)家和地區(qū)都有數(shù)據(jù)中心,只是規(guī)模有所區(qū)別而已;
7.3 谷歌到底擁有多少臺(tái)服務(wù)器?谷歌一直以來(lái)是秘而不宣,估計(jì)總共應(yīng)該是千萬(wàn)臺(tái)級(jí)別的服務(wù)器規(guī)模
7.4 需要足夠的電力,其產(chǎn)生的熱量也是驚人的,所以要需要先進(jìn)的冷卻技術(shù)。