Trích xuất dữ liệu dễ dàng với Trình duyệt cạo
Khai thác dữ liệu là quá trình thu thập dữ liệu cụ thể từ các trang web. Người dùng có thể trích xuất văn bản, hình ảnh, video, đánh giá, sản phẩm, v.v. Bạn có thể trích xuất dữ liệu để thực hiện nghiên cứu thị trường, phân tích tình cảm, phân tích cạnh tranh và tổng hợp dữ liệu.
Nếu bạn đang xử lý một lượng nhỏ dữ liệu, bạn có thể trích xuất dữ liệu theo cách thủ công bằng cách sao chép và dán thông tin cụ thể từ các trang web vào bảng tính hoặc định dạng tài liệu theo ý thích của bạn. Ví dụ: nếu với tư cách là khách hàng, bạn đang tìm kiếm các bài đánh giá trực tuyến để giúp bạn đưa ra quyết định mua hàng, thì bạn có thể loại bỏ dữ liệu theo cách thủ công.
Mặt khác, nếu bạn đang xử lý các tập dữ liệu lớn, bạn cần một kỹ thuật trích xuất dữ liệu tự động. Bạn có thể tạo giải pháp trích xuất dữ liệu nội bộ hoặc sử dụng Proxy API hoặc Scraping API cho các tác vụ đó.
Tuy nhiên, những kỹ thuật này có thể kém hiệu quả hơn vì một số trang web bạn nhắm mục tiêu có thể được bảo vệ bằng hình ảnh xác thực. Bạn cũng có thể phải quản lý bot và proxy. Những tác vụ như vậy có thể chiếm nhiều thời gian của bạn và hạn chế bản chất của nội dung mà bạn có thể trích xuất.
Mục lục
Trình duyệt cạo: Giải pháp
Bạn có thể vượt qua tất cả những thử thách này thông qua Trình duyệt cạo của Bright Data. Trình duyệt tất cả trong một này giúp thu thập dữ liệu từ các trang web khó cạo. Nó là một trình duyệt sử dụng giao diện người dùng đồ họa (GUI) và được điều khiển bởi API Puppeteer hoặc Playwright, khiến bot không thể phát hiện được.
Scraping Browser có các tính năng mở khóa tích hợp tự động xử lý tất cả các khối thay cho bạn. Trình duyệt được mở trên máy chủ của Bright Data, nghĩa là bạn không cần cơ sở hạ tầng nội bộ đắt tiền để loại bỏ dữ liệu cho các dự án quy mô lớn của mình.
Các tính năng của Trình duyệt cạo dữ liệu sáng
- Mở khóa trang web tự động: Bạn không cần phải liên tục làm mới trình duyệt của mình vì trình duyệt này tự động điều chỉnh để xử lý quá trình giải CAPTCHA, khối mới, dấu vân tay và thử lại. Scraping Browser bắt chước một người dùng thực.
- Mạng proxy lớn: Bạn có thể nhắm mục tiêu đến bất kỳ quốc gia nào bạn muốn, vì Scraping Browser có hơn 72 triệu IP. Bạn có thể nhắm mục tiêu đến các thành phố hoặc thậm chí là các nhà mạng và hưởng lợi từ công nghệ tốt nhất trong lớp.
- Có thể mở rộng: Bạn có thể mở hàng nghìn phiên đồng thời vì trình duyệt này sử dụng cơ sở hạ tầng Dữ liệu sáng để xử lý tất cả các yêu cầu.
- Tương thích với Puppeteer và Playwright: Trình duyệt này cho phép bạn thực hiện lệnh gọi API và tìm nạp bất kỳ số phiên trình duyệt nào bằng Puppeteer (Python) hoặc Playwright (Node.js).
- Tiết kiệm thời gian và tài nguyên: Thay vì thiết lập proxy, Trình duyệt Scraping sẽ xử lý mọi thứ trong nền. Bạn cũng không phải thiết lập cơ sở hạ tầng nội bộ vì công cụ này sẽ xử lý mọi thứ ở chế độ nền.
Cách thiết lập trình duyệt cạo
- Truy cập trang web Bright Data và nhấp vào Trình duyệt cạo trên tab “Giải pháp cạo”.
- Tạo một tài khoản. Bạn sẽ thấy hai tùy chọn; “Bắt đầu dùng thử miễn phí” và “Bắt đầu miễn phí với Google”. Bây giờ chúng ta hãy chọn “Bắt đầu dùng thử miễn phí” và chuyển sang bước tiếp theo. Bạn có thể tạo tài khoản theo cách thủ công hoặc sử dụng tài khoản Google của mình.
- Khi tài khoản của bạn được tạo, bảng điều khiển sẽ hiển thị một số tùy chọn. Chọn “Proxy & cơ sở hạ tầng cạo”.
- Trong cửa sổ mới mở ra, chọn Trình duyệt cạo và nhấp vào “Bắt đầu”.
- Lưu và kích hoạt cấu hình của bạn.
- Kích hoạt bản dùng thử miễn phí của bạn. Tùy chọn đầu tiên cung cấp cho bạn khoản tín dụng $5 mà bạn có thể sử dụng cho việc sử dụng proxy của mình. Nhấp vào tùy chọn đầu tiên để dùng thử sản phẩm này. Tuy nhiên, nếu bạn là người dùng nhiều, bạn có thể nhấp vào tùy chọn thứ hai cung cấp cho bạn 50 đô la miễn phí nếu bạn nạp vào tài khoản của mình 50 đô la trở lên.
- Nhập thông tin thanh toán của bạn. Đừng lo lắng, vì nền tảng sẽ không tính phí cho bạn. Thông tin thanh toán chỉ xác minh rằng bạn là người dùng mới và không tìm kiếm quà tặng miễn phí bằng cách tạo nhiều tài khoản.
- Tạo một proxy mới. Khi bạn đã lưu chi tiết thanh toán của mình, bạn có thể tạo một proxy mới. Nhấp vào biểu tượng “thêm” và chọn Scraping Browser làm “Loại proxy” của bạn. Nhấp vào “Thêm Proxy” và chuyển sang bước tiếp theo.
- Tạo một “khu vực” mới. Một cửa sổ bật lên sẽ xuất hiện hỏi bạn có muốn tạo Vùng mới không; nhấp vào “Có” và tiếp tục.
- Nhấp vào “Kiểm tra mã và ví dụ tích hợp”. Bây giờ, bạn sẽ nhận được các ví dụ tích hợp Proxy mà bạn có thể sử dụng để loại bỏ dữ liệu khỏi trang web mục tiêu của mình. Bạn có thể sử dụng Node.js hoặc Python để trích xuất dữ liệu từ trang web mục tiêu của mình.
Bây giờ bạn có mọi thứ bạn cần để trích xuất dữ liệu từ một trang web. Chúng tôi sẽ sử dụng trang web của mình, techpoe.com.com, để chứng minh cách hoạt động của Trình duyệt cạo. Đối với phần trình diễn này, chúng tôi sẽ sử dụng node.js. Bạn có thể làm theo nếu bạn đã cài đặt node.js.
Thực hiện theo các bước sau;
const puppeteer = require('puppeteer-core'); // should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>' const auth="USERNAME:PASSWORD"; async function run(){ let browser; try { browser = await puppeteer.connect({browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222`}); const page = await browser.newPage(); page.setDefaultNavigationTimeout(2*60*1000); await page.goto('https://example.com'); const html = await page.evaluate(() => document.documentElement.outerHTML); console.log(html); } catch(e) { console.error('run failed', e); } finally { await browser?.close(); } } if (require.main==module) run();
Tôi sẽ thay đổi mã của mình ở dòng 10 như sau;
đang đợi page.goto(‘https://techpoe.com.com/authors/‘);
Mã cuối cùng của tôi bây giờ sẽ là;
const puppeteer = require('puppeteer-core'); // should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>' const auth="brd-customer-hl_bc09fed0-zone-zone2:ug9e03kjkw2c"; async function run(){ let browser; try { browser = await puppeteer.connect({browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222`}); const page = await browser.newPage(); page.setDefaultNavigationTimeout(2*60*1000); await page.goto('https://techpoe.com.com/authors/'); const html = await page.evaluate(() => document.documentElement.outerHTML); console.log(html); } catch(e) { console.error('run failed', e); } finally { await browser?.close(); } } if (require.main==module) run();
node script.js
Bạn sẽ có một cái gì đó như thế này trên thiết bị đầu cuối của mình
Cách xuất dữ liệu
Bạn có thể sử dụng một số phương pháp để xuất dữ liệu, tùy thuộc vào cách bạn định sử dụng dữ liệu đó. Ngày nay, chúng ta có thể xuất dữ liệu sang tệp html bằng cách thay đổi tập lệnh để tạo tệp mới có tên data.html thay vì in trên bàn điều khiển.
Bạn có thể thay đổi nội dung mã của mình như sau;
const puppeteer = require('puppeteer-core'); const fs = require('fs'); // should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>' const auth="brd-customer-hl_bc09fed0-zone-zone2:ug9e03kjkw2c"; async function run() { let browser; try { browser = await puppeteer.connect({ browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222` }); const page = await browser.newPage(); page.setDefaultNavigationTimeout(2 * 60 * 1000); await page.goto('https://techpoe.com.com/authors/'); const html = await page.evaluate(() => document.documentElement.outerHTML); // Write HTML content to a file fs.writeFileSync('data.html', html); console.log('Data export complete.'); } catch (e) { console.error('run failed', e); } finally { await browser?.close(); } } if (require.main == module) { run(); }
Bây giờ bạn có thể chạy mã bằng lệnh này;
node script.js
Như bạn có thể thấy trong ảnh chụp màn hình sau, thiết bị đầu cuối hiển thị thông báo cho biết “xuất dữ liệu hoàn tất”.
Nếu chúng ta kiểm tra thư mục dự án của mình, bây giờ chúng ta có thể thấy một tệp có tên data.html với hàng nghìn dòng mã.
Tôi vừa tìm hiểu sơ bộ về cách trích xuất dữ liệu bằng trình duyệt Scraping. Tôi thậm chí có thể thu hẹp và chỉ loại bỏ tên tác giả và mô tả của họ bằng công cụ này.
Nếu bạn muốn sử dụng Trình duyệt cạo, hãy xác định bộ dữ liệu bạn muốn trích xuất và sửa đổi mã cho phù hợp. Bạn có thể trích xuất văn bản, hình ảnh, video, siêu dữ liệu và liên kết, tùy thuộc vào trang web bạn đang nhắm mục tiêu và cấu trúc của tệp HTML.
câu hỏi thường gặp
Khai thác dữ liệu và quét web có hợp pháp không?
Quét web là một chủ đề gây tranh cãi, với một nhóm cho rằng điều đó là vô đạo đức trong khi những người khác cảm thấy ổn. Tính hợp pháp của việc cạo web sẽ phụ thuộc vào bản chất của nội dung được cạo và chính sách của trang web mục tiêu.
Nói chung, việc cạo dữ liệu với thông tin cá nhân như địa chỉ và chi tiết tài chính được coi là bất hợp pháp. Trước khi bạn thu thập dữ liệu, hãy kiểm tra xem trang web bạn đang nhắm mục tiêu có bất kỳ nguyên tắc nào không. Luôn đảm bảo rằng bạn không loại bỏ dữ liệu không có sẵn công khai.
Scraping Browser có phải là công cụ miễn phí không?
Không. Scraping Browser là dịch vụ trả phí. Nếu bạn đăng ký dùng thử miễn phí, công cụ sẽ cung cấp cho bạn khoản tín dụng $5. Các gói trả phí bắt đầu từ $15/GB + $0,1/h. Bạn cũng có thể chọn tùy chọn Pay As You Go bắt đầu từ $20/GB + $0,1/h.
Sự khác biệt giữa trình duyệt Scraping và trình duyệt không đầu là gì?
Scraping Browser là một trình duyệt chuyên sâu, có nghĩa là nó có giao diện người dùng đồ họa (GUI). Mặt khác, các trình duyệt không đầu không có giao diện đồ họa. Các trình duyệt không đầu như Selenium được sử dụng để tự động quét web nhưng đôi khi bị hạn chế vì chúng phải xử lý CAPTCHA và phát hiện bot.
kết thúc
Như bạn có thể thấy, Scraping Browser đơn giản hóa việc trích xuất dữ liệu từ các trang web. Scraping Browser sử dụng đơn giản so với các công cụ như Selenium. Ngay cả những người không phải là nhà phát triển cũng có thể sử dụng trình duyệt này với giao diện người dùng tuyệt vời và tài liệu tốt. Công cụ này có các khả năng bỏ chặn không có trong các công cụ loại bỏ khác, làm cho nó trở nên hiệu quả đối với tất cả những ai muốn tự động hóa các quy trình đó.
Bạn cũng có thể khám phá cách ngăn Plugin ChatGPT lấy nội dung trang web của bạn.