From c3aa0cb7c3f513eda93ded833aac6de64e0e0ac2 Mon Sep 17 00:00:00 2001 From: filesite Date: Thu, 16 May 2024 11:54:44 +0800 Subject: [PATCH] spider config update to support any website url --- README.md | 34 ++++++++++++++++++---------------- config.mjs | 6 +++--- 2 files changed, 21 insertions(+), 19 deletions(-) diff --git a/README.md b/README.md index 6dbac27..19e88fa 100644 --- a/README.md +++ b/README.md @@ -7,10 +7,11 @@ Hero scripts of machete. 支持以下平台视频分享网页数据抓取: -* 抖音网页版 -* 快手网页版 -* 西瓜视频网页版 -* Bilibili +* bilibili - Bilibili,B站 +* douyin - 抖音网页版 +* kuaishou - 快手网页版 +* xigua - 西瓜视频网页版 +* website - 任意网页 爬虫采集到的数据结构见Machete项目的TaJian皮肤文档,目前实现了以下几个属性: @@ -21,18 +22,19 @@ Hero scripts of machete. ## 目录/文件说明 -* bot - 针对各大平台的网页HTML解析类 -* bypass - 针对各大平台的常用域名收集 -* lib - 公用类 -* plugin - Hero插件 -* data - TaJian爬虫数据保存目录 -* todo - TaJian爬虫任务保存目录 -* test - 类库测试代码 -* tmp - 临时文件保存目录 -* install_cloud.sh - hero服务端安装(非必需) -* install_hero.sh - hero客户端安装 -* config.mjs - 爬虫配置文件 -* spider.mjs - TaJian爬虫主程序 +* bot - 针对各大平台的网页HTML解析类 +* bypass - 针对各大平台的常用域名收集 +* lib - 公用类 +* plugin - Hero插件 +* data - TaJian爬虫数据保存目录 +* todo - TaJian爬虫任务保存目录 +* test - 类库测试代码 +* tmp - 临时文件保存目录 +* install_cloud.sh - hero服务端安装(非必需) +* install_hero.sh - hero客户端安装 +* start_cloud.sh - hero服务端启动 +* config.mjs - 爬虫配置文件 +* spider.mjs - TaJian爬虫主程序 ## 使用方法 diff --git a/config.mjs b/config.mjs index efb6b80..e7927c0 100644 --- a/config.mjs +++ b/config.mjs @@ -12,9 +12,9 @@ let configs = { //HeroUnion英雄联盟对接配置 herounion: { server_url: 'https://herounion.filesite.io', //联盟服务地址 - name: 'machete_hero', //爬虫名字 - description: '支持Machete的TaJian皮肤的hero爬虫', //爬虫简介 - platforms: 'douyin,kuaishou,xigua,bilibili', //爬虫支持的平台 + name: 'machete_hero', //爬虫名字 + description: '支持Machete的TaJian皮肤的hero爬虫', //爬虫简介 + platforms: 'douyin,kuaishou,xigua,bilibili,website', //爬虫支持的平台 contracts: 'tajiantv', //爬虫支持的数据采集合约(可二次开发自定义) country: 'cn', //爬虫所在国家 lang: 'zh', //爬虫支持的语言