用Java写爬虫


以下是使用 IntelliJ IDEA 创建一个简单的 Java 爬虫项目的步骤:

  1. 打开 IntelliJ IDEA,点击 “Create New Project”。
  2. 在 “New Project” 对话框中,选择 “Java”,确保右侧的 “Project SDK” 选择了正确的 JDK 版本。点击 “Next”。
  3. 选择 “Create project from template” 复选框,从列表中选择 “Command Line App”,然后点击 “Next”。
  4. 为项目指定 “Project name” 和 “Project location”,然后点击 “Finish”。

现在,您已经创建了一个简单的 Java 项目。接下来,我们将使用 Jsoup 库编写爬虫:

  1. 为项目添加 Jsoup 库。右键点击项目名称,选择 “Open Module Settings”。在 “Project Structure” 对话框中,选择左侧的 “Modules”,然后点击右侧的 “Dependencies” 标签。点击 “+” 按钮,选择 “Library”,然后选择 “From Maven”。
  2. 在 “Download Library from Maven Repository” 对话框中,输入 “org.jsoup:jsoup”,然后选择最新版本。点击 “OK”,并在随后的对话框中确认添加该库。
  3. 打开 “src” 文件夹下的 “Main.java” 文件,替换现有代码为以下内容:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class Main {
    public static void main(String[] args) {
        // 目标网址
        String url = "https://example.com";

        try {
            // 发送请求获取网页内容
            Document document = Jsoup.connect(url).get();

            // 提取网页标题
            String title = document.title();
            System.out.println("网站标题: " + title);

            // 提取所有的链接
            Elements links = document.select("a");

            for (Element link : links) {
                String href = link.attr("href");
                String linkText = link.text();
                System.out.println(linkText + ": " + href);
            }
        } catch (IOException e) {
            System.out.println("请求失败,错误信息: " + e.getMessage());
        }
    }
}

4.修改 url 为您想要爬取的网站地址。然后运行 “Main.java” 文件,观察控制台中的输出。

这个简单的示例会输出目标网站的标题和所有链接。根据需要,您可以扩展此示例以爬取更多信息,或针对特定数据进行解析。请注意,在实际应用中,请遵守目标网站的爬虫政策,确保爬虫行为不会对网站造成负担。

如果您在 IntelliJ IDEA 中无法直接从 Maven Repository 添加 Jsoup 库,请尝试手动将其添加到项目中。以下是手动添加 Jsoup 库的步骤:

  1. 访问 Jsoup 库的 Maven Repository 页面:https://mvnrepository.com/artifact/org.jsoup/jsoup
  2. 选择最新版本的 Jsoup 库,然后点击 “jar” 下载 JAR 文件。
  3. 将下载的 JAR 文件复制到项目的 “lib” 文件夹中。如果项目中没有 “lib” 文件夹,请在项目根目录下创建一个。
  4. 在 IntelliJ IDEA 中,右键点击项目名称,选择 “Open Module Settings”。在 “Project Structure” 对话框中,选择左侧的 “Modules”,然后点击右侧的 “Dependencies” 标签。点击 “+” 按钮,选择 “Library”,然后选择 “Java”。
  5. 在文件选择器中,导航到项目 “lib” 文件夹,选择刚刚下载的 Jsoup JAR 文件,然后点击 “OK”。最后点击 “Apply”,然后点击 “OK” 以应用更改。

现在,您应该已经成功将 Jsoup 库添加到项目中。您可以继续按照之前的回答中的步骤编写和运行爬虫代码。


  目录