李海博客給大家推薦一個免費的開源無代碼平臺,它允許用戶在幾分鐘內通過無代碼機器人將網站轉換為API和電子表格。 使得訓練一個機器人進行網頁數據抓取變得非常簡單,用戶可以在2分鐘內完成訓練。
Github地址:https://github.com/getmaxun/maxun
主要功能
??快速訓練機器人:用戶可以在2分鐘內訓練一個機器人自動進行網頁數據抓取。
??無需編碼:無需編寫代碼,用戶只需通過點擊和選擇即可收集數據。
??自托管和云服務:支持自托管和云服務,用戶可以根據自己的需求選擇。
軟件特點
??無代碼數據提取
??處理分頁和滾動
??按特定時間表運行機器人
??將網站轉換為API
??將網站轉換為電子表格
??適應網站布局變化(即將推出)
??支持登錄后的數據提取,包括雙因素認證支持(即將推出)
??集成(目前支持Google Sheets)
機器人能力
??無代碼數據提取:無需編寫代碼,輕松收集網頁數據。
??處理分頁和滾動:輕松處理無限滾動、分頁和JavaScript密集型網站。
??解決驗證碼和自動輪換代理:解決驗證碼問題,并維護一個大型代理池,以實現精確到國家、州或郵政編碼級別的目標數據提取。
??適應網站布局變化:自動修復所有數據選擇器,即使網站布局變化,機器人也能持續提取數據。
??按計劃或通過API運行:可以安排機器人在特定時間或定期運行,也可以通過API運行機器人,集成到現有系統中。
??登錄后提取數據,支持雙因素認證:即使需要2FA或MFA,也可以登錄并從登錄后提取數據。
數據轉換
??將網站轉換為API:將任何網站轉換為強大的API,實時訪問數據并自動化工作流程。
??將網站轉換為實時數據庫:通過將數據添加到Google Sheets和Airtable,將任何網站轉換為實時數據庫。(更多集成即將推出)
本地設置
Docker Compose:
1. 克隆項目:git clone https://github.com/getmaxun/maxun
2. 啟動容器:docker-compose up -d --build
無Docker:
1. 確保系統已安裝Node.js、PostgreSQL、MinIO和Redis。
2. 克隆項目:git clone https://github.com/getmaxun/maxun
3. 進入項目根目錄:cd maxun
4. 安裝依賴:npm install
5. 進入maxun-core目錄安裝依賴:cd maxun-core 和 npm install
6. 啟動前端和后端:npm run start
7. 訪問前端:http://localhost:5173/,后端:http://localhost:8080/
工作原理
Maxun允許創建自定義機器人,模擬用戶行為并提取數據。機器人可以執行以下操作:
1.?Capture List:從網站提取結構化和批量項目,例如從亞馬遜抓取產品。
2.?Capture Text:從網站提取單個文本內容。
3.?Capture Screenshot:獲取網站的全頁或可見部分截圖。