㈠ 在网站里搜索,打出一个字,会出现很多词,这是什么技术啊
是suggest
suggest是交互性很强的产品。随着用户的输入,呈现不同的内容。而不同用户输入的行为是不一样的。比如输入“北京市朝阳区”,技巧差的人可能先输入北京市,然后再输入朝阳区,这时suggest有机会在北京市这个层级就作出推荐。技巧更差的,可能一个字一个字的输入,这时候suggest介入的机会就更多了。但是显然,输入内容越多,用户表达的需求就越明确,推荐出来的内容越可能符合用户需求,但是意义也就越小,因为没有起到节省用户时间的目的。因此在输入的前几个字,就应该尽可能的贴近用户需求,一种方式是覆盖热点,打概率,覆盖大多数用户,更讨巧的方式是所谓个性化推荐。这些思考适用于任何用户输入,机器推荐的场景,比如搜索框,比如浏览器地址栏等等。这点google
chrome做的极好,搜狗浏览器也做了一些很好的尝试
㈡ 搜索引擎的实现技术
其实一点也不复杂,就是搜索引擎会自动根据搜索量来排名,当你输入关键字时它自动从数据库提取那些相同的关键字,就造成你说的结果
但网络 并不完全按照搜索量排名它有个竞价系统,你出钱多你排名就靠前
基于原理(首先是用蜘蛛(Spider)进行全网搜索,自动抓取网页;然后将抓取的网页进行索引,同时也会记录与检索有关的属性,中文搜索引擎中还需要首先对中文进行分词;最后,接受用户查询请求,检索索引文件并按照各种参数进行复杂的计算,产生结果并返回给用户。
1.利用网络蜘蛛获取网络资源
这是一种半自动化的资源(由于此时尚未对资源进行分析和理解,不能成为信息而仅是资源)获取方式。所谓半自动化,是指搜索器需要人工指定起始网络资源URL(Uniform Resource Locator),然后获取该URL所指向的网络资源,并分析该资源所指向的其他资源并获取。如Google的在利用蜘蛛程序获取网络资源时,是由一个认为管理程序负责任务的分配和结果的处理,多个分布式的蜘蛛程序从管理程序活动任务,然后将获取的资源作为结果返回,并从新获得任务。
2.利用索引器从搜索器获取的资源中抽取信息,并建立利于检索的索引表
当用网络蜘蛛获取资源后,需要对这些进行加工过滤,去掉控制代码及无用信息,提取出有用的信息,并把信息用一定的模型表示,使查询结果更为准确。Web上的信息一般表现为网页,对每个网页,须生成一摘要,此摘要将显示在查询结果的页面中,告诉查询用户各网页的内容概要。模型化的信息将存放在临时数据库中,由于web数据的数据量极为庞大,为了提高检索效率,须按照一定规则建立索引。不同搜索引擎在建立索引时会考虑不同的选项,如是否建立全文索引,是否过滤无用词汇,是否使用meta信息等。
3.检索及用户交互
这部分的主要内容包括:用户查询(query)理解,即最大可能贴近的理解用户通过查询串想要表达的查询目的,并将用户查询转换化为后台检索使用的信息模型;根据用户查询的检索模型,在索引库中检索出结果集;结果排序:通过特定的排序算法,对检索结果集进行排序。由于web数据的海量性和用户初始查询的模糊性,检索结果集一般很大,而用户一边不会有足够的耐性逐个查看所有的结果,所以怎样设计结果集的排序算法,把用户感兴趣的结果排在前面就十分重要。
)
㈢ 搜索引擎常用的搜索技巧有哪些
搜索关键词提炼
选择搜索关键词的原则是,首先确定你所要达到的目标,在脑子里要形成一个比较清晰概念,即我要找的到底是什么?是资料性的文档?还是某种产品或服务?然后再分析这些信息都有些什么共性,以及区别于其他同类信息的特性,最后从这些方向性的概念中提炼出此类信息最具代表性的关键词。如果这一步做好了,往往就能迅速的定位你要找的东西,而且多数时候你根本不需要用到其他更复杂的搜索技巧。
细化搜索条件
你给出的搜索条件越具体,搜索引擎返回的结果也会越精确。比方说你想查找有关电脑冒险游戏方面的资料,输入game是无济于事的。computer game范围就小一些,当然最好是敲入computer adventure game,返回的结果会精确得多。此外一些功能词汇和太常用的名词,如对英文中的“and”、“how”、“what”、 “web”、“homepage”和中文中的“的”、“地”、“和”等等搜索引擎是不支持的。这些词被称为停用词(Stop Words)或过滤词(Filter Words),在搜索时这些词都将被搜索引擎忽略。
用好搜索逻辑命令
搜索引擎基本上都支持附加逻辑命令查询,常用的是“+”号和“-”号,或与之相对应的布尔(Boolean)逻辑命令AND、OR和NOT。用好这些命令符号可以大幅提高我们的搜索精度。
精确匹配搜索
除利用前面提到的逻辑命令来缩小查询范围外,还可使用""引号(注意为英文字符。虽然现在一些搜索引擎已支持中文标点符号,但顾及到其他引擎,最好养成使用英文字符的习惯)来进行精确匹配查询(也称短语搜索)。
特殊搜索命令
标题搜索 多数搜索引擎都支持针对网页标题的搜索,命令是“title:”,在进行标题搜索时,前面提到的逻辑符号和精确匹配原则同样适用。网站搜索 此外我们还可以针对网站进行搜索,命令是“site:”(Google)、“host:”(AltaVista)、“url:”(Infoseek)或“domain:”(HotBot)。链接搜索 在Google和AltaVista中,用户均可通过“link:”命令来查找某网站的外部导入链接(inbound links)。其他一些引擎也有同样的功能,只不过命令格式稍有区别。你可以用这个命令来查看是谁以及有多少网站与你做了链接。
简单查询
在搜索引擎中输入关键词,然后点击“搜索”就行了,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息。
使用双引号用(" ")
给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。例如在搜索引擎的文字框中输入“电传”,它就会返回网页中有“电传”这个关键字的网址,而不会返回诸如“电话传真”之类网页。
使用加号(+)
在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上,例如,在搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。
使用减号(-)
在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词,例如,在搜索引擎中输入“电视台-中央电视台”,它就表示最后的查询结果中一定不包含“中央电视台”。
使用通配符(*和?)
通配符包括星号(*)和问号(?),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。例如输入 “computer*”,就可以找到“computer、computers、computerised、computerized”等单词,而输入 “comp?ter”,则只能找到“computer、compater、competer”等单词。
使用布尔检索
所谓布尔检索,是指通过标准的布尔逻辑关系来表达关键词与关键词之间逻辑关系的一种查询方法,这种查询方法允许我们输入多个关键词,各个关键词之间的关系可以用逻辑关系词来表示。and,称为逻辑“与”,用and进行连接,表示它所连接的两个词必须同时出现在查询结果中,例如,输入“computer and book”,它要求查询结果中必须同时包含computer和book。or,称为逻辑“或”,它表示所连接的两个关键词中任意一个出现在查询结果中就可以,例如,输入“computer or book”,就要求查询结果中可以只有computer,或只有book,或同时包含computer和book。not,称为逻辑“非”,它表示所连接的两个关键词中应从第一个关键词概念中排除第二个关键词,例如输入“automobile not car”,就要求查询的结果中包含automobile(汽车),但同时不能包含car(小汽车)。near,它表示两个关键词之间的词距不能超过n个单词。在实际的使用过程中,你可以将各种逻辑关系综合运用,灵活搭配,以便进行更加复杂的查询。
使用括号
当两个关键词用另外一种操作符连在一起,而你又想把它们列为一组时,就可以对这两个词加上圆括号。
使用元词检索
大多数搜索引擎都支持“元词”(metawords)功能,依据这类功能用户把元词放在关键词的前面,这样就可以告诉搜索引擎你想要检索的内容具有哪些明确的特征。例如,你在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。在键入的关键词后加上“domainrg”,就可以查到所有以org为后缀的网站。其他元词还包括:image:用于检索图片,link:用于检索链接到某个选定网站的页面,URL:用于检索地址中带有某个关键词的网页。
区分大小写
这是检索英文信息时要注意的一个问题,许多英文搜索引擎可以让用户选择是否要求区分关键词的大小写,这一功能对查询专有名词有很大的帮助,例如:Web专指万维网或环球网,而web则表示蜘蛛网.
㈣ 百度搜索是什么技术方式
有延时的
全文搜索引擎 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户 ■ 目录索引 与全文搜索引擎相比,目录索引有许多不同之处。 首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。 其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引,登录更是困难。(由于登录Yahoo!的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录Yahoo雅虎的技巧)。此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。 最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。 目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。 目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。