广告位招租
详细信息请联系
jkanban@gmail.com
キャンペン中!
游客:
注册
|
登录
|
会员
|
帮助
|
网站首页
日本看板
»
开发综合
» 搜索引擎原理
‹‹ 上一主题
|
下一主题 ››
投票
交易
悬赏
活动
打印
|
推荐
|
订阅
|
收藏
标题:
[文章]
搜索引擎原理
admin
(蕨菜)
一代文豪
UID 1
精华 0
积分 10885
帖子 3933
威望 155
金钱 19658
慈善捐款(日元) 300
阅读权限 200
注册 2007-3-25
#1
大
中
小
发表于 2008-5-15 15:16
资料
个人空间
短消息
加为好友
搜索引擎原理
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。
真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。
搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。
1.
从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
2.
建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
3.
在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。
互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。
你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。
www.rakudoor.com 乐道 樂道 楽道 -- Ruby on Rails试验田
iloeva
(艾伊華)
风流才子
别把巧合当命运
UID 765
精华 0
积分 6124
帖子 2263
威望 92
金钱 7778
慈善捐款(日元) 300
阅读权限 150
注册 2007-10-24
#2
大
中
小
发表于 2008-5-15 16:31
资料
个人空间
短消息
加为好友
可以通过软件,让自己的网页在搜索结果中排在最前位吗?
漫长痛苦的结茧蜕化,等到了破壳而出之时;
不一定是美丽的蝴蝶,也可能是扑火的飞蛾。
清风jacky
风流才子
UID 6
精华
1
积分 4466
帖子 1606
威望 105
金钱 5526
慈善捐款(日元) 300
阅读权限 100
注册 2007-3-30
#3
大
中
小
发表于 2008-5-15 16:36
资料
个人空间
短消息
加为好友
回复 #2 iloeva 的帖子
不是用软件,是在做网站的时候通过一些搜索引擎优化手段,做到提高排位。
言寡尤,行寡悔。
iloeva
(艾伊華)
风流才子
别把巧合当命运
UID 765
精华 0
积分 6124
帖子 2263
威望 92
金钱 7778
慈善捐款(日元) 300
阅读权限 150
注册 2007-10-24
#4
大
中
小
发表于 2008-5-15 16:40
资料
个人空间
短消息
加为好友
如果网站已经做好了,还可以提升排位吗?这是很难的技术突破吗?
漫长痛苦的结茧蜕化,等到了破壳而出之时;
不一定是美丽的蝴蝶,也可能是扑火的飞蛾。
清风jacky
风流才子
UID 6
精华
1
积分 4466
帖子 1606
威望 105
金钱 5526
慈善捐款(日元) 300
阅读权限 100
注册 2007-3-30
#5
大
中
小
发表于 2008-5-15 16:41
资料
个人空间
短消息
加为好友
回复 #4 iloeva 的帖子
可以,也不算很难吧。
不过最重要的还是网站的内容。因为现在有很多网站恶意优化,只要被搜索引擎公司发现就会被除名的。
言寡尤,行寡悔。
iloeva
(艾伊華)
风流才子
别把巧合当命运
UID 765
精华 0
积分 6124
帖子 2263
威望 92
金钱 7778
慈善捐款(日元) 300
阅读权限 150
注册 2007-10-24
#6
大
中
小
发表于 2008-5-15 16:51
资料
个人空间
短消息
加为好友
回复 #5 清风jacky 的帖子
除了名,不能再加进去?
根据什么判断是不是恶意?
漫长痛苦的结茧蜕化,等到了破壳而出之时;
不一定是美丽的蝴蝶,也可能是扑火的飞蛾。
清风jacky
风流才子
UID 6
精华
1
积分 4466
帖子 1606
威望 105
金钱 5526
慈善捐款(日元) 300
阅读权限 100
注册 2007-3-30
#7
大
中
小
发表于 2008-5-15 17:01
资料
个人空间
短消息
加为好友
回复 #6 iloeva 的帖子
http://ja.wikipedia.org/wiki/%E6 ... 0%E9%81%A9%E5%8C%96
去这里看看吧
言寡尤,行寡悔。
iloeva
(艾伊華)
风流才子
别把巧合当命运
UID 765
精华 0
积分 6124
帖子 2263
威望 92
金钱 7778
慈善捐款(日元) 300
阅读权限 150
注册 2007-10-24
#8
大
中
小
发表于 2008-5-15 17:19
资料
个人空间
短消息
加为好友
en ,扫盲了,呵呵呵
漫长痛苦的结茧蜕化,等到了破壳而出之时;
不一定是美丽的蝴蝶,也可能是扑火的飞蛾。
投票
交易
悬赏
活动
日本看板
分类信息
> 综合服务
> 求职求人
> 生活常识
> 跳蚤市场
> 寻房问屋
> 交友约会
社交区
> 活动聚会
> 足球版
> 篮球版
> 其他运动
综合区
> 大水库
> 谈天说地
> 开心娱乐
> 中文歌曲
> 日文歌曲
> 欧美歌曲
> 美丽时尚
> 读书小屋
> 人在旅途
> 摄影爱好者
> 爱车一族
> 中華文化
> 原创基地
> 动画漫画
> 三角地
工作学习区
> 在日就职
> 赴日留学
> 日语学习
> 英语学习
华人团块
> 公団居民
> 北大的
> 家属团
IT相关区
> 电脑游戏
> 大众软件
> 硬件广场
> 网络纵横
> 电玩专区
> TV GAME
> 手掌机
软件开发区
> 开发综合
> Ruby&Rails
> 新手入门
> 环境搭建
> Rails 插件
> JAVA
> AJAX
> 嵌入式开发
> 开源研究
聚焦天下
> 512地震专版
> 北京奥运专版
管理服务区
> 公告版
> 站务管理
> J系列Q&A
当前时区 GMT+9, 现在时间是 2008-7-9 10:47
Powered by
Discuz!
5.5.0
© 2001-2007
Comsenz Inc.
TOP
清除 Cookies
-
联系我们
-
日本看板
-
Archiver