instagram 内容抓取
抓取说明
1、需要登录信息,即抓取时需要附带cookie
,同时需要user-agent
。
2、数据获取接口及下载均有频率限制,无间隔的请求(几百个资源)会被限制,在被限制后睡眠一定时间继续。
3、内容抓取分为两个入口
- 一个是抓取某个用户发布的所有资源
- 一个是抓取某个tag下的所有资源
两种入口附带的cookie不同,请求的URL不同。
4、抓取步骤:
- 电脑端登陆ins,保存
c......
1、需要登录信息,即抓取时需要附带cookie
,同时需要user-agent
。
2、数据获取接口及下载均有频率限制,无间隔的请求(几百个资源)会被限制,在被限制后睡眠一定时间继续。
3、内容抓取分为两个入口
两种入口附带的cookie不同,请求的URL不同。
4、抓取步骤:
c......
1、总共17个分类。
2、数据获取
https://coub.com/api/v2/timeline/hot/movies/half?per_page=25
movies
为分类。 per_page
为每页返回的数据量[1,25]。首次获取只需传入 page=1
即为第一页的数据。下次请求附带字段 anchor
为上次请求返回的 next
1、总共52个分类。
2、数据获取
https://9gag.com/v1/group-posts/group/cute/type/hot?c=10
cute
为分类。首次获取只需传入 c=10
即为前十条数据。下次请求附带上次请求返回的 nextCursor
参数即可。每次请求返回10条数据。3、每个资源的属性: