Browse Source

Readme update

master
filesite 1 year ago
parent
commit
73ca0d77e0
  1. 12
      README.md
  2. 24
      test/README.md
  3. 2
      test/scrap_test.mjs

12
README.md

@ -1,9 +1,10 @@ @@ -1,9 +1,10 @@
# machete的hero爬虫脚本库
Hero scripts of machete.
本项目基于Node.js和开源工具Hero(官网:https://ulixee.org)。
将支持以下平台基本数据抓取:
支持以下平台视频分享网页数据抓取:
* 抖音网页版
* 快手网页版
@ -26,10 +27,17 @@ Hero scripts of machete. @@ -26,10 +27,17 @@ Hero scripts of machete.
## 使用方法
下载本源码到本地后,执行下面命令安装依赖包:
1. 下载本源码到本地后
2. 执行下面命令安装依赖包:
```
npm install
```
如果你对npm和node不熟悉,请自行了解。
3. 写一个.mjs脚本,调用bot/下的类库,自行解析目标网页获取所需数据。
bot/目录下的类库调用方法,可参考test/scrap_test.mjs测试脚本。

24
test/README.md

@ -0,0 +1,24 @@ @@ -0,0 +1,24 @@
## 测试脚本
* scrap_test.mjs - 几大平台视频分享网页数据抓取类库测试
使用方法:
```
node scrap_test.mjs "douyin"
```
支持的平台参数:
* douyin
* kuaishou
* xigua
* bilibili
解析结果示例:
```
{"title":"一男一女在海上漂了十多天,终于到了一座荒岛,在岛上生活了十年,第一集 #电影解说 #奇幻电影 #爱情 - 抖音","cover":"//p6-pc-sign.douyinpic.com/image-cut-tos-priv/7025cb44422dcaccfc345881233c547e~tplv-dy-resize-origshort-autoq-75:330.jpeg?biz_tag=pcweb_cover&from=3213915784&s=PackSourceEnum_AWEME_DETAIL&sc=cover&se=false&x-expires=2009851200&x-signature=fdARfkxJ0Tyd9UVrBPi4ZvATyZA%3D"}
```

2
test/scrap_test.mjs

@ -76,7 +76,7 @@ import configs from '../config.mjs'; @@ -76,7 +76,7 @@ import configs from '../config.mjs';
case 'bilibili':
//抖音测试
//B站测试
url = 'https://www.bilibili.com/video/BV1ep4y1J75y/?share_source=copy_web&vd_source=00bead49a4c2df31bbf3e609d7d95899'; //pc
url = 'https://b23.tv/Lo0jIEt'; //mob

Loading…
Cancel
Save