<?xml version="1.0" encoding="gb2312"?>
<rss version="2.0">
<channel>
<title>搜索引擎技术</title>
<link>/searchengine/</link>
<description>挖经验 / 搜索引擎技术</description>
<language>zh-cn</language>
<generator>Copyright &amp;copy; 2007-2008 &lt;A href=&quot;http://www.kuqin.com&quot;&gt;酷勤网&lt;/A&gt; All Rights Reserved
&lt;A href=&quot;http://www.miibeian.gov.cn/&quot; target=&quot;_blank&quot;&gt;京ICP备07011765号&lt;/A&gt;</generator>
<webmaster>kuqin.com@163.com</webmaster>
<item>
    <title>推荐ruby中文分词器 － RMMSeg</title>
    <link>/searchengine/20080528/9014.html</link>
    <description>RMMSeg0.1.5版本已经可以在小型的ruby应用当中实际使用了，分词的效果也还不错。当然由于RMMSeg目前是纯ruby代码的实现，因此索引的性能还是有点慢，比目前JavaEye的单字拆分算法慢5倍左右。但考虑到全文检索的索引都是后台job去运行，所以稍微慢一点也可以接受。</description>
    <pubDate>2008-05-28</pubDate>
    <category>搜索引擎技术</category>
    <author>robbin</author>
    <comments>JavaEye</comments>
</item>
<item>
    <title>rmmseg-cpp - 简洁高效的ruby中文分词程序</title>
    <link>/searchengine/20080528/9013.html</link>
    <description>rmmseg的主要问题是性能和内存消耗。用纯ruby编写的rmmseg分词的速度非常慢，而且内存消耗非常惊人，当使用复杂分词算法的时候，内存呈线性上升的现象，在我作的大量索引测试程序中曾经上升到了900MB。为此rmmseg的作者用C++重写了一遍rmmseg项目，就是rmmseg-cpp。</description>
    <pubDate>2008-05-28</pubDate>
    <category>搜索引擎技术</category>
    <author>robbin</author>
    <comments>JavaEye</comments>
</item>
<item>
    <title>Xapian - C++全文检索程序</title>
    <link>/searchengine/20080527/8986.html</link>
    <description>有人一定会问，Xapian支持中文分词吗？答案是不支持，外国人怎么可能会写中文分词算法呢？但是这并不要紧，我刚刚介绍过libmmseg这个用C++编写的中文分词算法。因此只需要做一点点工作，给Xapian打个小补丁把libmmseg集成进去就可以支持Xapian的中文分词了。 </description>
    <pubDate>2008-05-27</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>JavaEye</comments>
</item>
<item>
    <title>使用libmmseg实现Ruby的中文分词功能</title>
    <link>/searchengine/20080525/8886.html</link>
    <description>libmmseg主要被作者用来实现Sphinx全文检索软件的中文分词功能，因此作者给Sphinx提供了一个补丁文件，可以让Sphinx集成libmmseg，从而支持对于中文文章的全文检索功能。libmmseg从0.7.2版本开始，提供了ruby调用的接口，所以可直接在ruby程序里面调用libmmseg进行分词</description>
    <pubDate>2008-05-24</pubDate>
    <category>搜索引擎技术</category>
    <author>robbin</author>
    <comments>robbin的自言自语</comments>
</item>
<item>
    <title>教你索引邮件</title>
    <link>/searchengine/20080522/8791.html</link>
    <description>就是教你怎样把邮件建立索引，再搜索出来。用MAPI把邮件读取到数据库里，用SharpICTCLAS做一个lucene的中文的语汇单元分析器，用lucene建立索引及查询索引。像收件人，抄送地址等用一个简单的语汇单元分析器就可以</description>
    <pubDate>2008-05-21</pubDate>
    <category>搜索引擎技术</category>
    <author>蛙蛙池塘</author>
    <comments>博客园</comments>
</item>
<item>
    <title>Compass 2.0：简化、集成及性能提升</title>
    <link>/searchengine/20080516/8548.html</link>
    <description>Compass项目是基于Lucene的一个开源项目，其主旨在于简化将搜索集成到Java应用的过程。Compass的核心目标在于将搜索集成到Java应用的过程进行简化。Compass试图在结合搜索引擎工作的时候简化API。对于习惯了ORM类库的开发人员来说，这些API应该非常熟悉。</description>
    <pubDate>2008-05-16</pubDate>
    <category>搜索引擎技术</category>
    <author>Ryan Slobojan译者 沙晓兰</author>
    <comments>InfoQ</comments>
</item>
<item>
    <title>关键词提取算法</title>
    <link>/searchengine/20080512/8367.html</link>
    <description>1、先给本聚类内的所有文档进行分词，然后用一个字典保存每个词出现的次数;2、遍历每个词，得到每个词在所有文档里的IDF值，和在本聚类内出现的次数（TF）相乘的值;3、用一个字典(key是词，value是TF*IDF权重)来保存所有的词信息，然后按value对字典排序</description>
    <pubDate>2008-05-12</pubDate>
    <category>搜索引擎技术</category>
    <author>蛙蛙池塘</author>
    <comments>博客园</comments>
</item>
<item>
    <title>教你文本聚类</title>
    <link>/searchengine/20080511/8323.html</link>
    <description>文本聚类是搜索引擎和语义web的基本技术，本文简单的文本聚类算法，对于想学搜索技术的初学者有一定入门作用的。这里会用到TF/IDF权重，用余弦夹角计算文本相似度，用方差计算两个数据间欧式距离，用k-means进行数据聚类等数学和统计知识。</description>
    <pubDate>2008-05-11</pubDate>
    <category>搜索引擎技术</category>
    <author>蛙蛙池塘</author>
    <comments>博客园</comments>
</item>
<item>
    <title>搜索spider对二叉查找树查找实验</title>
    <link>/searchengine/20080510/8297.html</link>
    <description>这次试验共准备了2,147,483,647个页面，这些页面(结点)以二叉查找树的结构组织在一起。对于某一特定结点来说，它自身的值大于其左子树上任意一结点的值，而小于右子树上任意一结点的值。在这次试验中，最左叶结点的值为1，而最右叶结点的值为2,147,483,647。</description>
    <pubDate>2008-05-10</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>BlogJava</comments>
</item>
<item>
    <title>谈谈网络爬虫设计中的问题 </title>
    <link>/searchengine/20080420/7068.html</link>
    <description>爬虫要做的事：从一个网页入口，分析链接，一层一层的遍历，或者从一组网页入口，或者从一个rss源列表开始爬rss；获取每个页面的源码保存在磁盘或者数据库里；遍历抓下来的网页进行处理，比如提取正文，消重等； 根据用途把处理后的文本进行索引、分类、聚类等操作。 </description>
    <pubDate>2008-04-20</pubDate>
    <category>搜索引擎技术</category>
    <author>蛙蛙池塘</author>
    <comments>博客园</comments>
</item>
<item>
    <title>为什么说Lucene不好</title>
    <link>/searchengine/20080324/5055.html</link>
    <description>6大理由不选用Lucene：6. 没有对集群的内置支持；5.跨度查询太慢；4.积分不能被插件化；3.Lucene并非良好设计；2.一个关闭的API使得继承Lucene成为痛苦；1. Lucene搜索算法不适合网格计算</description>
    <pubDate>2008-03-24</pubDate>
    <category>搜索引擎技术</category>
    <author>Cédric Champeau</author>
    <comments>JavaEye</comments>
</item>
<item>
    <title>如何验证谷歌抓取机器人(Googlebot)</title>
    <link>/searchengine/20080315/4594.html</link>
    <description>请告诉网站管理员们，最好的方法看来是使用域名解析服务器(DNS)来核实每个案例。我推荐的验证技术是做反向DNS查找，核实该名字是在googlebot.com域名内，然后使用该googlebot.com名做一个相应的正向DNS-&gt;IP的查找。</description>
    <pubDate>2008-03-15</pubDate>
    <category>搜索引擎技术</category>
    <author>Matt Cutts</author>
    <comments>谷歌中文网站管理员博客</comments>
</item>
<item>
    <title>百度分词算法详解</title>
    <link>/searchengine/20080306/4234.html</link>
    <description>百度的分词算法系统：首先用专有词典采用最大正向匹配分词，切分出部分结果，剩余没有切分交给普通词典，同样采取正向最大匹配分词，最后输出结果。另外，GOOGLE也是采用正向最大匹配分词算法，不过好像没有那个专用词典，所以很多专名都被切碎了。</description>
    <pubDate>2008-03-06</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>互联网</comments>
</item>
<item>
    <title>lucene.net 2.0 中文分词后语法高亮问题 </title>
    <link>/searchengine/20080228/4006.html</link>
    <description>这是使用lucene.net的自带分词器StandardAnalyzer，有个弊端是一个字就认为是一个词。现在我们要用自己的中文词义分词器——MyAnalyzer的话，问题来了。Highlighter一直报错。为什么会出现这种情况呢？那是因为，中文分词器，分词完成一般有分割符号。</description>
    <pubDate>2008-02-28</pubDate>
    <category>搜索引擎技术</category>
    <author>BirdsHover</author>
    <comments>博客园</comments>
</item>
<item>
    <title>Lucene搜索结果排序问题（按时间倒序排的替代解决方法）</title>
    <link>/searchengine/20080228/4005.html</link>
    <description>对于数据量大（索引文件大于50M）的索引，尽量不要用索引中的字段排序，要用索引ID排序（INDEXORDER）；两者效率相差近10倍，以下从内存占用与CPU处理时间来比较。</description>
    <pubDate>2008-02-28</pubDate>
    <category>搜索引擎技术</category>
    <author>朱博</author>
    <comments>博客园</comments>
</item>
<item>
    <title>谈 Page Rank – Google 的民主表决式网页排名技术</title>
    <link>/searchengine/20071204/2799.html</link>
    <description>在互联网上，如果一个网页被很多其它网页所链接，说明它受到普遍的承认和信赖，那么它的排名就高。这就是 Page Rank 的核心思想。当然 Page Rank 算法实际上要复杂得多。如，对来自不同网页的链接对待不同，本身网页排名高的链接更可靠，于是给这些链接予较大的权重。</description>
    <pubDate>2007-12-04</pubDate>
    <category>搜索引擎技术</category>
    <author>吴军, Google 研究员</author>
    <comments>Google黑板报</comments>
</item>
<item>
    <title>PHP 的搜索引擎技术</title>
    <link>/searchengine/20071112/2278.html</link>
    <description>我们可以这样设想：模拟一个查询，向某个搜索引擎网站发出相应格式的搜索命令，然后传回搜索结果，对结果的HTML代码进行分析，剥离多余的字符和代码，最后按所需要的格式显示在我们自己的网站页面里。</description>
    <pubDate>2007-11-12</pubDate>
    <category>搜索引擎技术</category>
    <author>沙雨</author>
    <comments>互联网</comments>
</item>
<item>
    <title>蜘蛛/爬虫程序的多线程控制（C#语言）</title>
    <link>/searchengine/20071112/2277.html</link>
    <description>在《爬虫/蜘蛛程序的制作（C#语言）》一文中，已经介绍了爬虫程序实现的基本方法，可以说，已经实现了爬虫的功能。只是它存在一个效率问题，下载速度可能很慢。这是两方面的原因造成的：1. 分析和下载不能同步进行。2. 只是单线程下载。</description>
    <pubDate>2007-11-12</pubDate>
    <category>搜索引擎技术</category>
    <author>Felomeng</author>
    <comments>CSDN博客</comments>
</item>
<item>
    <title>爬虫/蜘蛛程序的制作（C#语言）</title>
    <link>/searchengine/20071112/2276.html</link>
    <description>先将问题最小化（转化的思想，转化为小规模，可以解决的问题）：如果只有一个网页，怎么下载？问题变地很简单，只要用WebClient/WebRequest（甚至OpenFileDialog都可以）打开Url地址，将数据流存入本地存储器的文件（以相应的扩展名作为扩展名）即可。</description>
    <pubDate>2007-11-12</pubDate>
    <category>搜索引擎技术</category>
    <author>Felomeng</author>
    <comments>CSDN博客</comments>
</item>
<item>
    <title>用Python写一个小小的爬虫程序</title>
    <link>/searchengine/20071111/2275.html</link>
    <description>爬虫工作的基本原理就是，给定一个初始的url，下载这个url的网页，然后找出网页上所有满足下载要求的链接，然后把这些链接对应的url下载下来，然后再找下载下来的这些网页的url，我们可以用广度优先搜索实现这个算法，不过，首先得有一个函数找出网页上所有的满足要求的</description>
    <pubDate>2007-11-11</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>互联网</comments>
</item>
<item>
    <title>如何构造一个C#语言的爬虫程序</title>
    <link>/searchengine/20071111/2274.html</link>
    <description>C#特别适合于构造蜘蛛程序，这是因为它已经内置了HTTP访问和多线程的能力，而这两种能力对于蜘蛛程序来说都是非常关键的。下面是构造一个蜘蛛程序要解决的关键问题： HTML分析；页面处理；多线程；确定何时完成</description>
    <pubDate>2007-11-11</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>互联网</comments>
</item>
<item>
    <title>搜索引擎中网络爬虫的设计分析</title>
    <link>/searchengine/20071111/2273.html</link>
    <description>通常在下一次爬的的数据要跟上一次进行比较，如果连续5次都没有变化，那么将爬这个网页的时间间隔扩大1倍，如果一个网页在连续5次爬取的时候都有更新，那么将设置的爬取时间缩短为原来的1／2。网页更新频度严重影响着搜索引擎蜘蛛程度对网站的抓取</description>
    <pubDate>2007-11-11</pubDate>
    <category>搜索引擎技术</category>
    <author>秩名</author>
    <comments>酷勤网</comments>
</item>
<item>
    <title>网络爬虫技术</title>
    <link>/searchengine/20071111/2272.html</link>
    <description>网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件</description>
    <pubDate>2007-11-11</pubDate>
    <category>搜索引擎技术</category>
    <author>Ackarlix</author>
    <comments>CSDN博客</comments>
</item>
<item>
    <title>搜索引擎算法研究</title>
    <link>/searchengine/20071111/2271.html</link>
    <description> 文章的第2部分按照时间顺序详细剖析了各种链接分析算法，对不同的算法进行了比较。第3部分对这些算法做了评价和总结，指出了存在的问题和改进方向。</description>
    <pubDate>2007-11-11</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>互联网</comments>
</item>
<item>
    <title>搜索引擎分类与工作原理</title>
    <link>/searchengine/20071111/2270.html</link>
    <description>搜索引擎并不真正搜索互联网，它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎，通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词（即关键词）进行索引，建立索引数据库的全文搜索引擎。</description>
    <pubDate>2007-11-11</pubDate>
    <category>搜索引擎技术</category>
    <author>Ackarlix</author>
    <comments>CSDN博客</comments>
</item>
<item>
    <title>搜索引擎排名的作用及搜索引擎排名的商业价值</title>
    <link>/searchengine/20071111/2269.html</link>
    <description>就当前而言，如何更加深刻地理解互联网，如何推出搜索业务并进行不断创新，如何与其它业务整合，如何与专业搜索引擎合作，如何攀登和占据互联网世界的制高点，如何赢得正在到来的由搜索引擎引发的新一轮互联网变革和竞争…正是这个阶段互联网行业必须面对的理性抉择。</description>
    <pubDate>2007-11-11</pubDate>
    <category>搜索引擎技术</category>
    <author>Ackarlix</author>
    <comments>CSDN博客</comments>
</item>
<item>
    <title>Hadoop笔记--不需要分布式编程经验地分布式编程</title>
    <link>/searchengine/20070809/99.html</link>
    <description> Hadoop 是 Google labs 的MapReduce的一个实现，Nutch项目的全部数据处理都构建在其之上。MapReduce是一种简化的分布式编程模式，让程序可以自动在普通机器组成的集群中以并行方式分布执行。</description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>江南白衣</author>
    <comments>blogjava</comments>
</item>
<item>
    <title>什么是Heritrix-开源crawler</title>
    <link>/searchengine/20070809/98.html</link>
    <description>Heritrix是一个爬虫框架，可加如入一些可互换的组件。
  它的执行是递归进行的，主要有以下几步：
   1。在预定的URI中选择一个。
   2。获取URI
   3。分析，归档结果
   4。选择已经发现的感兴趣的URI。加入预定队列。
   5。标记已经处理过的URI</description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>CSDN博客</comments>
</item>
<item>
    <title>开发垂直门户的分布式搜索引擎系统</title>
    <link>/searchengine/20070809/91.html</link>
    <description>开发垂直门户的分布式搜索引擎系统时，发现有四种不同应用的分布式搜索引擎：
1. 分布式元搜索:
2. 散列分布搜索引擎
3. Peer 2 peer 搜索引擎
4. 局部遍历型搜索引擎</description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>吴志敏</author>
    <comments>CSDN博客</comments>
</item>
<item>
    <title>nutch 高亮和增加索引长度</title>
    <link>/searchengine/20070809/90.html</link>
    <description>nutch开源搜索引擎的高亮和增加索引长度</description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>CSDN博客</comments>
</item>
<item>
    <title>网络上的Nutch 0.7.2 学习笔记</title>
    <link>/searchengine/20070809/89.html</link>
    <description>网络上流行的Nutch 0.7.2 学习笔记。</description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>互联网</comments>
</item>
<item>
    <title>搜索引擎技术核心揭密(使用PHP编制搜索引擎) </title>
    <link>/searchengine/20070809/88.html</link>
    <description>这是一篇精彩的编程教学文章，不但详细地剖析了搜索引擎的原理，也提供了笔者自己对使用ＰＨＰ编制搜索引擎的一些思路。整篇文章深入浅出，相信无论是高手还是菜鸟，都能从中得到不少的启发。 </description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>CSDN博客</comments>
</item>
<item>
    <title>搜索三大定律：相关性、人气质量和自信心</title>
    <link>/searchengine/20070809/87.html</link>
    <description>搜索引擎走到今天，已经是一个结束过去，开辟未来的时候了。本文介绍搜索三大定律：相关性、人气质量和自信心定律</description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>互联网</comments>
</item>
<item>
    <title>Google排名秘密：下划线将等于词分隔符</title>
    <link>/searchengine/20070809/86.html</link>
    <description>Matt还首次确认了一个重大的Google更新，即Google即将会把下划线（_）当作词分隔符（比如-或空格）处理。这将会对不少网站尤其是链接中包含下划线的blog（比如GSeeker正在用的MT平台）的排名产生影响，因为Google终于可以正确地处理链接内容了</description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>互联网</comments>
</item>
<item>
    <title>搜索、引擎、优化、营销(点位思考)</title>
    <link>/searchengine/20070809/85.html</link>
    <description>谈谈1，寻找式的搜索
谈谈2.自动化的引擎
谈谈3.自我优化
谈谈4.反作弊
谈谈5.竞价广告
谈谈6.眼球经济</description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>mysoo.com.cn</comments>
</item>
<item>
    <title>搜索引擎暗规则序</title>
    <link>/searchengine/20070809/84.html</link>
    <description>马太效应：搜索引擎暗规则之一
20 80 法则：搜索引擎暗规则之二
破窗理论：搜索引擎暗规则之三
羊群效应：搜索引擎暗规则之四</description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>互联网</comments>
</item>
<item>
    <title>WEB网页结构化信息抽取技术介绍(网页库级)</title>
    <link>/searchengine/20070809/83.html</link>
    <description>网页库结构化信息抽取是采用页面结构分析与智能节点分析转换的方法，自动抽取结构化的数据。</description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>互联网</comments>
</item>
<item>
    <title>浅谈垂直搜索引擎</title>
    <link>/searchengine/20070809/82.html</link>
    <description>垂直搜索引擎技术同信息采集技术有一些共同点,不同的是,信息采集主要是将采集的信息导入本地库，而垂直搜索引擎主要是以网页的形式展现给用户,通用搜索引擎主要是利用一个spider程序到网络上爬行,一般是某个特定的周期派出一次将网页更新,垂直搜索引擎同样应有一个spide</description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>互联网</comments>
</item>
<item>
    <title>什么是垂直搜索-全面了解垂直搜索引擎</title>
    <link>/searchengine/20070809/81.html</link>
    <description>垂直搜索是针对某一个行业的专业搜索引擎，是搜索引擎的细分和延伸，是对网页库中的某类专门的信息进行一次整合，定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。</description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>互联网</comments>
</item>
<item>
    <title>如何做好一个垂直搜索引擎</title>
    <link>/searchengine/20070809/80.html</link>
    <description>垂直搜索大致需要以下技术：
1. 信息采集技术
2. 网页信息抽取技术
3. 信息的处理技术，包括：重复识别、重复识别、聚类、比较、分析、语料分析等
4. 语意相关性分析
5. 分词
6. 索引</description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>FullSearcher</author>
    <comments>FullSearcher.com</comments>
</item>
<item>
    <title>垂直搜索引擎的选型</title>
    <link>/searchengine/20070809/79.html</link>
    <description>垂直搜索选型的步骤：
1.选定适合您的，您熟悉的，有一定的资源背景的几个垂直搜索的被选方案。
2.查看google或百度（其它搜索引擎不行）检索关键词数据。
最好能搞到连续一段时间的全部词汇（按照检索频率排序），当然这几乎不可能，进行详细的分析、统计、挖掘。搞</description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>FullSearcher</author>
    <comments>FullSearcher.com</comments>
</item>
<item>
    <title>使用站内检索的五大理由</title>
    <link>/searchengine/20070809/78.html</link>
    <description>本文主要介绍了站内检索对internet网站的五大作用：所寻即所得；了解访问者的意图；符合网民的习惯；提升网站信息的价值；身份的象征。最后介绍了目前的网际搜索引擎不能替代站内检索的原因。 </description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>互联网</comments>
</item>
<item>
    <title>中文搜索引擎四大技术揭密:中文分词</title>
    <link>/searchengine/20070809/77.html</link>
    <description>分词准确性对搜索引擎来说十分重要，但如果分词速度太慢，即使准确性再高，对于搜索引擎来说也是不可用的，因为搜索引擎需要处理数以亿计的网页，如果分词耗用的时间过长，会严重影响搜索引擎内容更新的速度。</description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>互联网</comments>
</item>
<item>
    <title>中文搜索引擎四大技术揭密:系统架构</title>
    <link>/searchengine/20070809/76.html</link>
    <description>这里主要针对全文检索搜索引擎的系统架构进行说明，下文中提到的搜索引擎如果没有特殊说明也是指全文检索搜索引擎。搜索引擎的实现原理，可以看作四步：从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。　</description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>互联网</comments>
</item>
<item>
    <title>中文搜索引擎四大技术揭密:网络蜘蛛</title>
    <link>/searchengine/20070809/75.html</link>
    <description>网络蜘蛛在搜索引擎中占有重要位置，对搜索引擎的查全、查准都有影响，决定了搜索引擎数据容量的大小，而且网络蜘蛛的好坏直接影响搜索结果页中的死链接（即链接所指向的网页已经不存在）的个数。</description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>互联网</comments>
</item>
<item>
    <title>中文搜索引擎四大技术揭密:排序技术</title>
    <link>/searchengine/20070809/74.html</link>
    <description> 搜索引擎的排序技术应该也会朝着解决这两个不足的方向发展：语意相关性和排序个性化。前者需要完善的自然语言处理技术，后者需要记录庞大访问者信息和复杂的计算，要达到其中任何一个的要求均非易事，如何解决这些难题，任务落在了科学家和工程师们的肩上，哪个搜索引</description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>互联网</comments>
</item>
<item>
    <title>搜索引擎的技术发展趋势</title>
    <link>/searchengine/20070809/73.html</link>
    <description>搜索引擎经过几年的发展和摸索，越来越贴近人们的需求，搜索引擎的技术也得到了很大的发展。搜索引擎的最新技术发展包括以下几个方面：一、提高搜索引擎对用户检索提问的理解…</description>
    <pubDate>2007-08-09</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>互联网</comments>
</item>
<item>
    <title>信息检索的核心支撑技术</title>
    <link>/searchengine/20070809/72.html</link>
    <description>（Information Retrieval），通常指文本信息检索，包括信息的存储、组织、表现、查询、存取等各个方面，其核心为文本信息的索引和检索。从历史上看，信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。</description>
    <pubDate>2007-08-08</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>互联网</comments>
</item>
<item>
    <title>网站站内搜索的重要性</title>
    <link>/searchengine/20070808/71.html</link>
    <description>以下几点是站内搜索对于网站投资回报至为关键性的因素：1、并不是每个网站都需要站内搜索…</description>
    <pubDate>2007-08-08</pubDate>
    <category>搜索引擎技术</category>
    <author>不详</author>
    <comments>互联网</comments>
</item>
<item>
    <title>站内搜索引擎真伪鉴别</title>
    <link>/searchengine/20070808/70.html</link>
    <description>真正的全文检索应具备 相关性排序技术 和 分词索引功能。 如果需要进行互联网的信息抓取和采集那么还需要网络蜘蛛模块。 分词、索引、排序这是全文检索的基本和核心，缺一不可。全文检索至少需要具备中文分词、索引、相关性排序功能。</description>
    <pubDate>2007-08-08</pubDate>
    <category>搜索引擎技术</category>
    <author>FullSearcher</author>
    <comments>FullSearcher.com</comments>
</item>

</channel>
</rss>
