Back to Question Center
0

Semalt - Làm thế nào để Scrape trang Web?

1 answers:
Beautiful Soup là một thư viện Python được sử dụng rộng rãi để cạo các trang web bằng cách tạo ra một cây phân tích cú pháp (parse tree) từ tài liệu XML và HTML. Cạo web, kỹ thuật chiết xuất dữ liệu từ các trang web và trang, được sử dụng rộng rãi trong các lĩnh vực phân tích dữ liệu và quản lý. Trong hầu hết các trường hợp, ngôn ngữ lập trình Python là một điều kiện tiên quyết trong khoa học dữ liệu.

Python 3 có các công cụ cạo và mô-đun bạn có thể áp dụng cho dự án quản lý dữ liệu của bạn - registrations uk. Hiện đang chạy là Beautiful Soup 4, mô đun này tương thích với cả Python 3 và Python 2. 7. Mô-đun Soup đẹp 4 cũng có thể tạo ra một cây phân tích cho canh không đóng. Trong hướng dẫn này, bạn sẽ học cách để cạo trang và ghi dữ liệu đã được cạo vào tệp CSV.

Bắt đầu

Để bắt đầu, hãy thiết lập máy chủ hoặc môi trường mã hóa Python cục bộ trên máy tính của bạn. Bạn cũng nên cài đặt mô-đun Soup và Yêu cầu Đẹp xinh đẹp trên máy của bạn. Kiến thức về làm việc với cả hai mô-đun cũng là một điều kiện tiên quyết cần thiết. Sự quen thuộc với việc gắn thẻ HTML và cấu trúc cũng là một lợi thế.

Hiểu dữ liệu của bạn

Trong bối cảnh này, dữ liệu thực sự từ Phòng trưng bày Nghệ thuật Quốc gia sẽ được sử dụng để giúp bạn hiểu cách sử dụng Beautiful Soup 4. Phòng trưng bày nghệ thuật quốc gia bao gồm 120.000 miếng được thực hiện bởi gần 13.000 nghệ sĩ. Nghệ thuật có trụ sở tại Washington D. C, Hoa Kỳ.

Thu thập dữ liệu Web với Soup đẹp không phải là phức tạp. Ví dụ: nếu bạn tập trung vào chữ Z, đánh dấu và lưu ý tên đầu tiên trong danh sách. Trong trường hợp này, tên đầu tiên là Zabaglia, Niccola. Để thống nhất, chỉ ra số lượng trang và tên của nghệ sỹ cuối cùng trên trang đó.

Cách nhập các yêu cầu và thư viện Soup đẹp

Để nhập thư viện, kích hoạt môi trường lập trình Python 3 của bạn. Kiểm tra để chắc chắn rằng bạn đang ở trong cùng một thư mục với môi trường lập trình của bạn. Chạy lệnh sau để bắt đầu. my_env / bin / kích hoạt.

Tạo một tệp mới và bắt đầu nhập thư viện Soup và Yêu cầu Đẹp. Thư viện yêu cầu sẽ cho phép bạn sử dụng HTTP trong các chương trình Python của bạn trong các định dạng dễ đọc. Mặt khác, Beautiful Soup làm việc để cạo các trang một cách nhanh chóng. Sử dụng bs4 để nhập khẩu Soup đẹp.

Làm thế nào để thu thập và phân tích một trang web

Sử dụng yêu cầu thu thập URL của trang đầu tiên của bạn. URL của trang đầu tiên sẽ được gán cho trang biến. Xây dựng một đối tượng BeautifulSoup từ Requests và phân tích đối tượng từ trình phân tích cú pháp Python.

Trong hướng dẫn này, mục đích là để thu thập các liên kết và tên của các nghệ sĩ. Ví dụ, bạn có thể thu thập ngày tháng của nghệ sĩ và quốc tịch. Đối với người dùng Windows, nhấp chuột phải vào tên của nghệ sĩ. Trong trường hợp này, sử dụng Zabaglia, Niccola. Đối với người dùng Mac OS, nhấn "CTRL" và nhấp vào tên. Nhấp vào trình đơn "Kiểm tra phần tử" trình đơn bật lên trên màn hình của bạn để truy cập công cụ phát triển web. In tên của nghệ sĩ ra để làm cho Beautiful Soup phân tích một cái cây một cách nhanh chóng.

Xóa các liên kết dưới cùng

Để xoá các liên kết dưới cùng trên trang web của bạn, hãy kiểm tra DOM bằng cách nhấp chuột phải vào phần tử. Bạn sẽ nhận ra rằng các liên kết nằm dưới một bảng HTML. Sử dụng Soup đẹp, sử dụng "phương pháp phân hủy" để xóa các thẻ khỏi cây phân tích cú pháp.

Làm thế nào để kéo nội dung từ một thẻ

Bạn không phải in toàn bộ thẻ liên kết, sử dụng Beautiful Soup để loại bỏ vật liệu từ một thẻ. Bạn cũng có thể chụp URL liên kết với các nghệ sĩ bằng cách sử dụng Beautiful Soup 4.

Chụp dữ liệu đã được cạo vào một tệp tin CSV

tệp CSV sẽ cho phép bạn lưu trữ dữ liệu có cấu trúc trong một văn bản thuần túy, một định dạng được sử dụng chủ yếu cho bảng dữ liệu. Kiến thức về xử lý các tập tin văn bản thuần bằng Python được khuyến nghị.

Khai thác dữ liệu Web được sử dụng để cạo các trang và thu thập thông tin. Quan tâm đến các trang web bạn đang khai thác thông tin từ. Một số trang web động hạn chế việc trích xuất dữ liệu trên trang web của họ. Để cạo trang với Beautiful Soup và Python 3 là đơn giản.

December 22, 2017