诸葛知识百科

当前位置:   首页 > 百科大全

爬虫是什么

网络[网络是由节点和连线构成,表示诸多对象及其相互联系。]爬虫[爬虫,脊椎动物,或称爬行类、爬虫类,属于四足总纲的羊膜动物,是对蜥形纲及合弓纲除鸟类及哺乳类以外所有物种的通称,包括龟、蛇、蜥蜴、鳄及已绝灭的恐龙与似哺乳爬行动物等等。](又被称为网页[网页是构成网站的基本元素,是承载各种网站应用的平台。]蜘蛛,网络机器人[机器人(Robot)是自动执行工作的机器装置。],在FOAF社区中,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网[WWW是环球信息网的缩写,(亦作“Web”、“WWW”、“'W3'”,英文全称为“World Wide Web”),中文名字为“万维网”,"环球网"等,常简称为Web。]信息的程序或者脚本,它们被广泛用于互联网搜索引擎[搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。]或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。

Web网络爬虫系统的功能是下载网页数据,为搜索引擎系统提供数据来源,很多大型的网络搜索引擎系统都是基于Web数据采集的搜索引擎系统,由此可见Web网络爬虫在搜索引擎中的重要性[在口语中,为不可数名词。]

在网络爬虫的系统框架中,主过程由控制器[控制器(英文名称:controller)是指按照预定顺序改变主电路或控制电路的接线和改变电路中电阻值来控制电动机的启动、调速、制动和反向的主令装置。]、解析器[解析器(parser)是指一个程序,通常是编译器的部分,接收输入的顺序源程序指令、交互式联机命令、标记或者一些其它定义的接口。]、资源库三部分组成。控制器的主要工作是负责给多线程[多线程(英语:multithreading),是指从软件或者硬件上实现多个线程并发执行的技术。]中各个爬虫线程分配工作任务;解析器的主要工作是下载网页,进行网页的处理,处理的内容包括JS脚本标签、CSS代码内容、空格字符、HTML标签等内容。资源库是用来存放下载到的网页资源,一般会采用大型的数据库[数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。]存储,并对其建立索引。