Browse Source

spider config update to support any website url

master
filesite 6 months ago
parent
commit
c3aa0cb7c3
  1. 34
      README.md
  2. 6
      config.mjs

34
README.md

@ -7,10 +7,11 @@ Hero scripts of machete.
支持以下平台视频分享网页数据抓取: 支持以下平台视频分享网页数据抓取:
* 抖音网页版 * bilibili - Bilibili,B站
* 快手网页版 * douyin - 抖音网页版
* 西瓜视频网页版 * kuaishou - 快手网页版
* Bilibili * xigua - 西瓜视频网页版
* website - 任意网页
爬虫采集到的数据结构见Machete项目的TaJian皮肤文档,目前实现了以下几个属性: 爬虫采集到的数据结构见Machete项目的TaJian皮肤文档,目前实现了以下几个属性:
@ -21,18 +22,19 @@ Hero scripts of machete.
## 目录/文件说明 ## 目录/文件说明
* bot - 针对各大平台的网页HTML解析类 * bot - 针对各大平台的网页HTML解析类
* bypass - 针对各大平台的常用域名收集 * bypass - 针对各大平台的常用域名收集
* lib - 公用类 * lib - 公用类
* plugin - Hero插件 * plugin - Hero插件
* data - TaJian爬虫数据保存目录 * data - TaJian爬虫数据保存目录
* todo - TaJian爬虫任务保存目录 * todo - TaJian爬虫任务保存目录
* test - 类库测试代码 * test - 类库测试代码
* tmp - 临时文件保存目录 * tmp - 临时文件保存目录
* install_cloud.sh - hero服务端安装(非必需) * install_cloud.sh - hero服务端安装(非必需)
* install_hero.sh - hero客户端安装 * install_hero.sh - hero客户端安装
* config.mjs - 爬虫配置文件 * start_cloud.sh - hero服务端启动
* spider.mjs - TaJian爬虫主程序 * config.mjs - 爬虫配置文件
* spider.mjs - TaJian爬虫主程序
## 使用方法 ## 使用方法

6
config.mjs

@ -12,9 +12,9 @@ let configs = {
//HeroUnion英雄联盟对接配置 //HeroUnion英雄联盟对接配置
herounion: { herounion: {
server_url: 'https://herounion.filesite.io', //联盟服务地址 server_url: 'https://herounion.filesite.io', //联盟服务地址
name: 'machete_hero', //爬虫名字 name: 'machete_hero', //爬虫名字
description: '支持Machete的TaJian皮肤的hero爬虫', //爬虫简介 description: '支持Machete的TaJian皮肤的hero爬虫', //爬虫简介
platforms: 'douyin,kuaishou,xigua,bilibili', //爬虫支持的平台 platforms: 'douyin,kuaishou,xigua,bilibili,website', //爬虫支持的平台
contracts: 'tajiantv', //爬虫支持的数据采集合约(可二次开发自定义) contracts: 'tajiantv', //爬虫支持的数据采集合约(可二次开发自定义)
country: 'cn', //爬虫所在国家 country: 'cn', //爬虫所在国家
lang: 'zh', //爬虫支持的语言 lang: 'zh', //爬虫支持的语言

Loading…
Cancel
Save