diff --git a/README.md b/README.md index 9b6ab01..1a0ff14 100644 --- a/README.md +++ b/README.md @@ -1,9 +1,10 @@ # machete的hero爬虫脚本库 Hero scripts of machete. +本项目基于Node.js和开源工具Hero(官网:https://ulixee.org)。 -将支持以下平台基本数据抓取: +支持以下平台视频分享网页数据抓取: * 抖音网页版 * 快手网页版 @@ -26,10 +27,17 @@ Hero scripts of machete. ## 使用方法 -下载本源码到本地后,执行下面命令安装依赖包: +1. 下载本源码到本地后 + +2. 执行下面命令安装依赖包: ``` npm install ``` 如果你对npm和node不熟悉,请自行了解。 + +3. 写一个.mjs脚本,调用bot/下的类库,自行解析目标网页获取所需数据。 + +bot/目录下的类库调用方法,可参考test/scrap_test.mjs测试脚本。 + diff --git a/test/README.md b/test/README.md new file mode 100644 index 0000000..7aa38a4 --- /dev/null +++ b/test/README.md @@ -0,0 +1,24 @@ + +## 测试脚本 + +* scrap_test.mjs - 几大平台视频分享网页数据抓取类库测试 + +使用方法: +``` +node scrap_test.mjs "douyin" +``` + + +支持的平台参数: + +* douyin +* kuaishou +* xigua +* bilibili + + +解析结果示例: +``` +{"title":"一男一女在海上漂了十多天,终于到了一座荒岛,在岛上生活了十年,第一集 #电影解说 #奇幻电影 #爱情 - 抖音","cover":"//p6-pc-sign.douyinpic.com/image-cut-tos-priv/7025cb44422dcaccfc345881233c547e~tplv-dy-resize-origshort-autoq-75:330.jpeg?biz_tag=pcweb_cover&from=3213915784&s=PackSourceEnum_AWEME_DETAIL&sc=cover&se=false&x-expires=2009851200&x-signature=fdARfkxJ0Tyd9UVrBPi4ZvATyZA%3D"} +``` + diff --git a/test/scrap_test.mjs b/test/scrap_test.mjs index c011ed1..1efc1ec 100644 --- a/test/scrap_test.mjs +++ b/test/scrap_test.mjs @@ -76,7 +76,7 @@ import configs from '../config.mjs'; case 'bilibili': - //抖音测试 + //B站测试 url = 'https://www.bilibili.com/video/BV1ep4y1J75y/?share_source=copy_web&vd_source=00bead49a4c2df31bbf3e609d7d95899'; //pc url = 'https://b23.tv/Lo0jIEt'; //mob