Browse Source

add todo and data dir

master
filesite 1 year ago
parent
commit
e9537f83bf
  1. 5
      .gitignore
  2. 1
      bot/Bilibili.mjs
  3. 1
      bot/Douyin.mjs
  4. 1
      bot/Kuaishou.mjs
  5. 1
      bot/Xigua.mjs
  6. 6
      config.mjs
  7. 32
      data/README.md
  8. 14
      todo/README.md

5
.gitignore vendored

@ -1,3 +1,8 @@ @@ -1,3 +1,8 @@
package-lock.json
node_modules/
tmp/profile*.json
todo/*.todo
data/*.url
data/*.jpg
data/*.png
data/*.txt

1
bot/Bilibili.mjs

@ -59,6 +59,7 @@ class Bilibili extends HeroBot { @@ -59,6 +59,7 @@ class Bilibili extends HeroBot {
await hero.close();
data.bot = this.name;
data.done = true;
}catch(error) {
console.error("Error got when request %s via hero: %s", url, error);

1
bot/Douyin.mjs

@ -19,6 +19,7 @@ class Douyin extends HeroBot { @@ -19,6 +19,7 @@ class Douyin extends HeroBot {
}
const profile = await this.init('douyin');
data.bot = this.name;
if (profile) {
options.userProfile = profile;
}

1
bot/Kuaishou.mjs

@ -43,6 +43,7 @@ class Kuaishou extends HeroBot { @@ -43,6 +43,7 @@ class Kuaishou extends HeroBot {
await hero.close();
data.bot = this.name;
data.done = true;
}catch(error) {
console.error("Error got when request %s via hero: %s", url, error);

1
bot/Xigua.mjs

@ -52,6 +52,7 @@ class Xigua extends HeroBot { @@ -52,6 +52,7 @@ class Xigua extends HeroBot {
await hero.close();
data.bot = this.name;
data.done = true;
}catch(error) {
console.error("Error got when request %s via hero: %s", url, error);

6
config.mjs

@ -1,4 +1,10 @@ @@ -1,4 +1,10 @@
export default {
//自动任务相关配置
task_list_dir: 'todo/', //待抓取任务文件保存目录
task_save_dir: 'data/', //抓取完成数据保存目录,文件格式:.url快捷方式,详细说明见:https://filesite.io
//bot相关配置
userAgent: '~ chrome >= 114 && mac',
viewport: {
width: 1440,

32
data/README.md

@ -0,0 +1,32 @@ @@ -0,0 +1,32 @@
## 视频网页抓取数据保存目录
按照FileSite.io的.url快捷方式文件格式保存,
并把相关数据以.txt描述文件保存。
示例如下:
文件名:20230913001.url
文件内容:
```
[InternetShortcut]
URL=https://v.ixigua.com/ieUaqrFN/
```
标题描述文件20230913001_title.txt:
```
漂亮妻子留守农村,好心丈夫托人过来帮忙,不料竟引发悲剧,影视 - 西瓜视频
```
标题描述文件20230913001_cover.txt:
```
http://p26-sign.bdxiguaimg.com/tos-cn-i-0004/ogB8EBP9dzAj3PApA2fDAIyACAbQuBpSIBN8Wh~tplv-pk90l89vgd-crop-center:864:486.jpeg?appId=1768&channelId=0&customType=custom%2Fnone&from=704_large_image_list&imageType=video1609&isImmersiveScene=0&is_stream=0&logId=202309132134234286F774B5273B4C0A5F&requestFrom=704&x-expires=1726148064&x-signature=ReDy6AL8DMvD7YsUrl%2F%2Bl2wb6Ls%3D
```
考虑到图片网址可能会有实效性,自动抓取程序将把它下载下来保存为:20230913001.jpg,
则封面图描述文件20230913001_cover.txt内容为:
```
./20230913001.jpg
```

14
todo/README.md

@ -0,0 +1,14 @@ @@ -0,0 +1,14 @@
## 待抓取网页任务目录
每个.todo文件视为一个待处理的任务,文件内容为待抓取的视频网址。
自动处理程序在完成任务后,将删除任务文件,并将抓取数据结果保存到config.mjs里的数据保存目录中。
任务文件内容示例:
```
https://v.ixigua.com/ieUaqrFN/
```
文件名可以时间戳命名。
Loading…
Cancel
Save