Golang如何实现多协程爬虫_Golang 多协程爬虫实践

P粉602998670 2025-11-19 00:00:00 次阅读

使用Goroutine和sync.WaitGroup实现多协程爬虫，通过带缓冲channel控制并发数，结合goquery解析HTML并用channel收集结果，提升爬取效率且避免资源耗尽。

多协程爬虫在 Golang 中非常常见，得益于其轻量级的 goroutine 和高效的并发模型。使用多个协程可以显著提升爬取效率，同时保持代码简洁。下面介绍如何用 Golang 实现一个简单但实用的多协程爬虫。

1. 使用 Goroutine 发起并发请求

Golang 的 goroutine 让并发变得简单。只需在函数调用前加上 go 关键字，就能启动一个新协程执行任务。

例如，我们有一组 URL 需要抓取：

urls := []string{
    "https://httpbin.org/delay/1",
    "https://httpbin.org/delay/2",
    "https://httpbin.org/get",
}

可以用协程并发请求：

for _, url := range urls {
    go fetch(url)
}

但这样会立即返回，主程序可能在协程完成前退出。需要使用 sync.WaitGroup 控制等待。

2. 控制协程数量：避免资源耗尽

如果 URL 很多，直接为每个都开协程会导致内存暴涨或被目标网站封禁。应使用信号量机制控制最大并发数。

通过带缓冲的 channel 模拟信号量：

semaphore := make(chan struct{}, 10) // 最大 10 个并发
var wg sync.WaitGroup
for _, url := range urls {
wg.Add(1)
go func(u string) {
defer wg.Done()
semaphore <- struct{}{} // 获取令牌
defer func() { <-semaphore }() // 释放令牌
    fetch(u)
}(url)
}
wg.Wait() // 等待所有任务完成这种方式既能并发，又能限制同时运行的协程数量。
3. 数据提取与结果收集
爬取页面后通常需要解析 HTML 提取数据。可使用 goquery 库（类似 jQuery）来操作 DOM。
安装：
go get github.com/PuerkitoBio/goquery
示例：提取标题
func parseTitle(body io.Reader) string {
    doc, _ := goquery.NewDocumentFromReader(body)
    return doc.Find("title").Text()
}
将结果通过 channel 收集，避免竞态条件：
results := make(chan string, len(urls))
// 在协程中：
title := parseTitle(resp.Body)
results <- fmt.Sprintf("%s: %s", url, title)
4. 错误处理与重试机制
网络请求可能失败，需加入错误判断和简单重试。
func fetchWithRetry(url string, maxRetries int) error {
    var err error
    for i := 0; i < maxRetries; i++ {
        resp, err := http.Get(url)
        if err == nil && resp.StatusCode == 200 {
            // 处理成功
            return nil
        }
        time.Sleep(time.Second << uint(i)) // 指数退避
    }
    return err
}
配合 context 可实现超时控制：
ctx, cancel := context.WithTimeout(context.Background(), 10*time.Second)
req, _ := http.NewRequestWithContext(ctx, "GET", url, nil)
client.Do(req)
基本上就这些。Golang 多协程爬虫的核心是合理利用 goroutine、channel 和 WaitGroup，控制并发规模，安全提取数据。不复杂但容易忽略细节，比如限流和错误处理。写好之后性能通常远超单线程爬虫。




相关栏目：
    【
        最新资讯    】
    【
        网络优化    】
    【
        主机评测    】
    【
        网站百科    】
    【
        技术教程    】
    【
        文学范文    】
    【
        分站    】
    【
        网址导航    】
    【
        关于我们    】




             ai 爬虫 html 多个 能在 令牌 只需 就能 go 线程 并发 git github 可以用 重试 dom 并发请求 golang channel jquery 主程序 中非 信号量