搜索引擎

42
LOGO 搜搜搜搜

Upload: maureen-cashman

Post on 30-Dec-2015

43 views

Category:

Documents


1 download

DESCRIPTION

搜索引擎. 搜索引擎. 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。. 搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。 百度和谷歌等是搜索引擎的代表。. 全文搜索引擎是名副其实的搜索引擎,国外代表有 Google ,国内则有著名的百度搜索。它们从互联网提取各个网站的信息,建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 搜索引擎

LOGO

搜索引擎

Page 2: 搜索引擎

搜索引擎

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

Page 3: 搜索引擎

搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

百度和谷歌等是搜索引擎的代表。

Page 4: 搜索引擎

全文搜索引擎是名副其实的搜索引擎,国外代表有 Google ,国内则有著名的百度搜索。它们从互联网提取各个网站的信息,建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。

Page 5: 搜索引擎

目录索引,虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词( Keywords )进行查询。目录索引中最具代表性的莫过于大名鼎鼎的 Yahoo 、新浪分类目录搜索。

Page 6: 搜索引擎

元搜索引擎( META Search Engine )接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace 、 Dogpile 、 Vivisimo 等,中文元搜索引擎中具代表性的是搜星搜索引擎。

Page 7: 搜索引擎

垂直搜索引擎为 2006 年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。

Page 8: 搜索引擎

集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot 在 2002 年底推出的搜索引擎。

Page 9: 搜索引擎

门户搜索引擎: AOLSearch 、 MSNSearch等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。

Page 10: 搜索引擎

工作原理

抓取网页 每个独立的搜索引擎都有自己的网页抓取程序( spide

r )。 Spider 顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

Page 11: 搜索引擎

处理网页 搜索引擎抓到网页后,还要做大量的预处理工作,才

能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度 / 丰富度等。

Page 12: 搜索引擎

提供检索服务 用户输入关键词进行检索,搜索引擎从索引数据库中

找到匹配该关键词的网页;为了用户便于判断,除了网页标题和 URL 外,还会提供一段来自网页的摘要以及其他信息。

Page 13: 搜索引擎

搜索引擎历史

起源 所有搜索引擎的祖先,是 1990 年由 Montreal 的

McGill University 三名学生( Alan Emtage 、 Peter Deutsch 、 Bill Wheelan )发明的 Archie ( Archie FAQ )。 Alan Emtage 等想到了开发一个可以用文件名查找文件的系统,于是便有了 Archie 。 Archie 是第一个自动索引互联网上匿名 FTP 网站文件的程序,但它还不是真正的搜索引擎。

Page 14: 搜索引擎

发 展( 1 ) Excite 的历史可以上溯到 1993 年 2 月, 6 个

Stanford University (斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到 1993 年中,这已是一个完全投资项目,他们还发布了一个供 webmasters 在自己网站上使用的搜索软件版本,后来被叫做 Excite for Web Servers 。

注: Excite 后来曾以概念搜索闻名, 2002 年 5 月,被Infospace 收购的 Excite 停止自己的搜索引擎,改用元搜索引擎 Dogpile

Page 15: 搜索引擎

发 展( 2 ) 1994 年 4 月,斯坦福大学的两名博士生,美籍华人杨

致远和 David Filo 共同创办了 Yahoo !。随着访问量和收录链接数的增长, Yahoo 目录开始支持简单的数据库搜索。因为 Yahoo! 的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。 Yahoo! 中收录的网站,因为都附有简介信息,所以搜索效率明显提高。

注: Yahoo 以后陆续有 Altavista 、 Inktomi 、 Google 提供搜索引擎服务

Page 16: 搜索引擎

发 展( 3 ) 1995 年,一种新的搜索引擎形式出现了——元搜索引

擎( Meta Search Engine )。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。

第一个元搜索引擎,是 Washington 大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler 。元搜索引擎概念上非常好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。

Page 17: 搜索引擎

发 展( 4 ) 智能检索的产生:它利用分词词典、同义词典,同音

词典改善检索效果,进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。

Page 18: 搜索引擎

百度

百度( Nasdaq : BAIDU )是全球最大的中文搜索引擎, 2000 年 1 月由李彦宏、徐勇两人创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案》诗句:“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

Page 19: 搜索引擎
Page 20: 搜索引擎
Page 21: 搜索引擎

百度搜索特色

百度快照 如果无法打开某个搜索结果,或者打开速度特别慢,

该怎么办?“百度快照”能帮您解决问题。每个未被禁止搜索的网页,在百度上都会自动生成临时缓存页面,称为“百度快照”。当您遇到网站服务器暂时故障或网络传输堵塞时,可以通过“快照”快速浏览页面文本内容。百度快照只会临时缓存网页的文本内容,所以那些图片、音乐等非文本信息,仍是存储于原网页。当原网页进行了修改、删除或者屏蔽后,百度搜索引擎会根据技术安排自动修改、删除或者屏蔽相应的网页快照。

Page 22: 搜索引擎

相关搜索 搜索结果不佳,有时候是因为选择的查询词不是很妥当。您可以通过参考别人是怎么搜的,来获得一些启发。百度的“相关搜索”,就是和您的搜索很相似的一系列查询词。百度相关搜索排布在搜索结果页的下方,按搜索热门度排序。

Page 23: 搜索引擎

拼音提示 如果只知道某个词的发音,却不知道怎么写,或者嫌某个词拼写输入太麻烦,该怎么办? 百度拼音提示能帮您解决问题。只要您输入查询词的汉语拼音,百度就能把最符合要求的对应汉字提示出来。它事实上是一个无比强大的拼音输入法。 拼音提示显示在搜索结果上方。

Page 24: 搜索引擎

错别字提示 由于汉字输入法的局限性,我们在搜索时经常会输入

一些错别字,导致搜索结果不佳。别担心,百度会给出错别字纠正提示。错别字提示显示在搜索结果上方。

Page 25: 搜索引擎

英汉互译词典 百度网页搜索内嵌英汉互译词典功能。如果您想查询英文单词或词组的解释,您可以在搜索框中输入想查询的“英文单词或词组” +“ 是什么意思”;如果您想查询某个汉字或词语的英文翻译,您可以在搜索框中输入想查询的“汉字或词语” +“ 的英语”。

Page 26: 搜索引擎

计算器 Windows 系统自带的计算器功能过于简陋,尤其是无

法处理一个复杂计算式,很不方便。而百度网页搜索内嵌的计算器功能,则能快速高效的解决您的计算需求。

Page 27: 搜索引擎

度量衡转换 在百度的搜索框中,您也可以做度量衡转换。格式如下:

换算数量换算前单位=?换算后单位

Page 28: 搜索引擎

专业文档搜索 很多有价值的资料,在互联网上并非是普通的网页,而是以 Word 、 PowerPoint 、 PDF 等格式存在。百度支持对 Office 文档(包括Word 、 Excel 、 Powerpoint )、 Adobe PDF 文档、 RTF 文档进行了全文搜索。要搜索这类文档,很简单,在普通的查询词后面,加一个“ filetype :”文档类型限定。“ Filetype:” 后可以跟以下文件格式:DOC 、 XLS 、 PPT 、 PDF 、 RTF 、 ALL 。其中, ALL表示搜索所有这些文件类型。

Page 29: 搜索引擎

股票、列车时刻表和飞机航班查询 在百度搜索框中输入股票代码、列车车次或者飞机航班号,您就能直接获得相关信息。

Page 30: 搜索引擎

天气查询 使用百度就可以随时查询天气预报。再也不用四处打听天气情况了。

在百度搜索框中输入您要查询的城市名称加上天气这个词 ,您就能获得该城市当天的天气情况。

Page 31: 搜索引擎

货币换算 要使用百度的内置货币换算器,只需在百度网页搜索框中键入您需要完成的货币转换,单击“回车”键或点击“百度一下”按钮即可。

Page 32: 搜索引擎

搜索框提示 百度会根据您的输入内容,在搜索框下方实时展示最符合的提示词。您只需用鼠标点击您想要的提示词,或者用键盘上下键选择您想要的提示词并按回车,就会返回该词的查询结果。 您不必再费力地敲打键盘即可轻松地完成查询。

Page 33: 搜索引擎

高级搜索语法

把搜索范围限定在网页标题中—— intitle 网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。使用的方式,是把查询内容中,特别关键的部分,用“ intitle:”领起来。

Page 34: 搜索引擎

把搜索范围限定在特定站点中—— site 有时候,您如果知道某个站点中有自己需要找的东西,

就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“ site: 站点域名”。

Page 35: 搜索引擎

把搜索范围限定在 url 链接中—— inurl 网页 url 中的某些信息,常常有某种有价值的含义。于

是,您如果对搜索结果的 url 做某种限定,就可以获得良好的效果。实现的方式,是用“ inurl:” ,后跟需要在 url 中出现的关键词。

Page 36: 搜索引擎

精确匹配——双引号和书名号 如果输入的查询词很长,百度在经过分析后,给出的

搜索结果中的查询词,可能是拆分的。如果您对这种情况不满意,可以尝试让百度不拆分查询词。给查询词加上双引号,就可以达到这种效果。

Page 37: 搜索引擎

要求搜索结果中不含特定查询词 如果您发现搜索结果中,有某一类网页是您不希望看见的,而且,这些网页都包含特定的关键词,那么用减号语法,就可以去除所有这些含有特定关键词的网页。

Page 38: 搜索引擎

百度图片搜索

筛选栏 筛选栏在搜索结果页面的左侧,默认为隐藏状态。您可以使用该工具栏,同时对搜索结果的尺寸、颜色和类型进行筛选。

Page 39: 搜索引擎

把搜索范围限定在特定网页中—— ft 有时候,您如果知道某些网页中有自己需要找的图片,

就可以把搜索范围限定在这些网页中,提高查询效率。使用方式是:在查询内容的后面加上“ ft: 网页地址”。

Page 40: 搜索引擎

把搜索范围限定在特定站点中—— site 有时候,您如果知道某个站点中有自己需要找的图片,

就可以把搜索范围限定在这个站点中,提高查询效率。使用方式是:在查询内容的后面加上“ site: 站点域名”。

Page 41: 搜索引擎

常见的搜索失败

搜索引擎没有帮你找到想要的内容,原因: 一,用来搜索的关键词太短; 二,要搜索的内容太常见,以至网上有巨大数量的相

关内容链接失败,搜索到的网站已不存在上次能搜到的内容,这次却搜不到,搜索引擎永

不停息的从它们的索引库中抛弃已索引的网页

Page 42: 搜索引擎

常见错误

错别字,如:周小川,周晓川关键词太常见多义词,如: Java不输入关键词,想要什么输入什么在错误的地方搜索