Skip to content

gdis5251/Spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 

Repository files navigation

C++ 爬虫程序

项目描述

使用 C++ 编程语言,实现一个 爬虫程序,来对图片进行下载。

开发平台

Windows 10

流程介绍

在这里插入图片描述

  1. 先输入一个起始 URL 进入 URL 队列。

  2. 在当前路径下创建一个文件夹。

    #include <Windows.h>
    
    CreateDirectory("./images", NULL);
  3. 获取到当前队列中首部的 URL。

  4. 解析 URL,主要作用是判断是否是正确的 URL,并且获取到服务器域名和资源路径。

  5. 连接服务器。

    gethostbyname(std::string); // 通过这个函数获取到服务器的 IP 地址 
  6. 获取网页源码。

    向服务器发送 HTTP 请求。获取到网页源码。

  7. 使用正则表达式解析网页源码。

    • 如果是图片 URL 就放进先前创建好的数组中。
    • 如果是其他 URL 就放进队列中,让其后续循环处理。
  8. 下载图片。

    循环遍历刚才存放图片的数组,重新对图片的 URL 建立连接和获取源码。

    去除服务器返回的 HTTP 头部信息,将正文信息写到一个新创建的文件里,放到之前创建的文件夹。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages