instagram 内容抓取

2018-09-27 19:00:00

抓取说明1、需要登录信息,即抓取时需要附带cookie,同时需要user-agent。2、数据获取接口及下载均有频率限制,无间隔的请求(几百个资源)会被限制,在被限制后睡眠一定时间继续。3、内容抓取分为两个入口一个是抓取某个用户发布的所有资源一个是抓取某个tag下的所有资源两种入口附带的cookie不同,请求的URL不同。4、抓取步骤:电脑端登陆ins,保存 cookie、query_hash、user-agent信息。后续所有请求附带cookie及user-agent。模拟请求个人主页/tag主页,通过解析HTML页面,得到userId/tag name。同时拿到第一页的数据及下页cursor。通过API接口,根据cursor持续获取多页数据。所有数据获取完毕后开始下载。返回的数据中,图片资源可以直接下载。视频资源需要再次请求视频地址获取接口获得视频地址,然后再下载。5、请求数据接口:user:https://www.instagram.com/graphql/query/?query_hash=a5164aed103f24b03e7b7747a2d94e3c&variables=

coub.com 内容抓取

2018-09-26 19:00:00

抓取说明1、总共17个分类。2、数据获取url:https://coub.com/api/v2/timeline/hot/movies/half?per_page=25说明:movies 为分类。 per_page 为每页返回的数据量[1,25]。首次获取只需传入 page=1 即为第一页的数据。下次请求附带字段 anchor 为上次请求返回的 next 参数即可。3、每个资源的属性:唯一标志: id、permalink资源描述: titile4、下载coub.com的音频和视频是分开的,下载的时候需要将音视频分别下载,然后使用FFmpeg合并。下载及合并使用开源项目 https://github.com/TeeSeal/coub-dl5、分类数组["animals-pets"

9GAG.com 内容抓取

2018-09-25 19:39:02

抓取说明1、总共52个分类。2、数据获取url:https://9gag.com/v1/group-posts/group/cute/type/hot?c=10说明:cute 为分类。首次获取只需传入 c=10 即为前十条数据。下次请求附带上次请求返回的 nextCursor 参数即可。每次请求返回10条数据。3、每个资源的属性:唯一标志: id资源描述: titile4、资源分三种类型,根据images属性下的字段区分 image  属性:image460    image700   gif  属性:image460    image460sv  image460svwm    image700 说明:image460sv image460svwm 两个属性下的 hasAudio 字段为0,及为无声,即为GIF

Nodejs 爬虫使用 eventproxy 控制并发

2016-08-02 03:06:21

use superagent 抓取 cheerio 解析 eventproxy 控制并发 target url:https://cnodejs.org/ cd nodejs mkdir test && cd test touch node.js 抓取其首页数据,共40篇文章。 首先爬取首页篇文章的URL,将得到的40篇文章的URL存入数组articleUrlArr 然后爬取每篇文章的详细内容。 var eventproxy = require('eventproxy'); var superagent = require('superagent'); var cheerio = require('cheerio'); var articleUrlArr = [], baseUrl = 'https://cnodejs.org/'; superagent.get(baseUrl)