第1741章 别被技术细节吓住

    第1741章 别被技术细节吓住 (第2/3页)

L,虽然各家写法不一样,但基本结构是固定的。

    链接都在<a href=>标签里,用正则表达式可以提取。”

    贾瀞雯打断:“正则表达式是什么?”

    “一种文本匹配的方法。”陈浩解释,“比如你要找所有以‘http://’开头的字符串。

    这个让技术人员去查资料,他们懂。”

    “第三,防止死循环。

    每个访问过的链接都要记录下来,下次遇到就直接跳过。

    还要设置深度限制,不能无限爬下去。”

    贾瀞雯飞快地记着。

    陈浩的声音很平静,好像这些难题都不是问题。

    “那中文分词呢?”她问,“这个他们觉得特别难。”

    电话那头沉默了一会儿。

    “这个确实难。”陈浩承认,“英文搜索可以直接按单词匹配,中文必须先把句子切分成有意义的词语。

    我们需要的不是机械切分,而是理解语义后的智能切分。”

    “怎么做?”

    “两种思路。”陈浩说,“一是基于词典,把常用的词做成词典库,然后匹配。

    二是基于统计,分析大量文本,找出经常连在一起出现的字组合。

    最好的办法是两者结合。”

    贾瀞雯记下最后几个字,笔尖顿了顿:“浩哥,这些概念你怎么都懂?你又没学过计算机。”

    陈浩笑了:“我是不懂具体编程,但我懂逻辑,懂原理。

    而且我看得多,想得多。

    搜索引擎的核心不是技术多炫,而是理解人想要什么,然后从数据里找出来。”

    他顿了顿:“瀞雯,你告诉团队,别被技术细节吓住。

    我们不是在写完美的学术论文,是在做一个能用的工具。

    第一版可以粗糙,可以有问题,但要快,要让用户能用上。

    改进可以慢慢来。”

    挂断电话后,贾瀞雯把笔记整理成文档,打印了五份。

    第二天开会,她把陈浩的话转述给团队。

    “陈总说,第一版可以粗糙,但要快。”她看着五张年轻的脸,“我们不求完美,但求可用。”

    李明眼睛一亮:“这就对了。

    我们总想一次做到最好,结果越想越不敢动手。

    其实可以先做个最简单的版本,能跑起来就行。”

    “对!”张涛一拍桌子,“爬虫可以先从几个固定的网

    (本章未完,请点击下一页继续阅读)