bluestarpin

Posted on Feb 02, 2022Read on Mirror.xyz

信息搜索课,爬虫课:明白讲解,蓝星笔记

  • 讲师:明白。公众号:多元思维hack。

  • 学习者:蓝星,推特:@lanxing4

  • 学习时间:20200704

  • 市面上的爬虫软件:八爪鱼,火车头,还有webscaper.

  • 04模仿:关键词思维,快速找到用户真实需求

    • 需求词,

    • 效果词,

    • 可量化性,关注各种不同的数据

    • 可复制性,

    • 不同平台汇总筛选

      • 内容平台:

        • 知乎,豆瓣,今日头条,百度贴吧,百度知道
      • 知识付费平台

      • 电商平台

        • 销量,评论数,价格

        • 关键位置

          • 首页,精选,推荐位,排行榜
    • 需求词是你对自身行业的了解,你自己想出来的大概词。

    • 根据需求词去搜索其他用户对这个词都有哪些问题,即他用来干什么,以得到效果词。

    • 得到效果词,就得到了文章,图片,视频,去看这些信息的数据,哪个数据高,就证明他们已经被市场验证过了。

    • 可复制性,将他们的卖点,文案,图片,评论搜集起来,改一改,自己也能用。

    • 要不同平台去综合判断。

  • 05,两个词,挖掘100+赚钱思路

    • 解决问题的词,

      • 如何,怎样,怎么,入门,课程,教程,培训

      • 如何快速,怎样高效,怎么省力,微信如何,电信怎样,手机怎么。

    • 信息整合

      • 哪些,哪几种,哪种,哪类

        • 哪些书,哪几种书,哪种书,哪类书。

        • 比如明白的知识星球网站,比如黑科技大全

      • 有啥,有什么,

      • 什么东西

      • 合集资源

      • 围绕大体量产品,围绕行业,资料包,

  • 06,增长,举一反三,拓展100+赚钱思路

    • 案例1:运营地图

      • 用户(群体),换个群体,比如程序员,比如销售,比如产品经理,比如电商。

        • 地区,角色,性别,认知

1

  • 场景

    • 展现形式,使用场景,工具/服务,知识/信息

2

  • 需求

    • 对标竞品,功能,使用场景,工具/服务,知识/信息
  • 案例2:instagram图片下载

    • 用户群体

    • 场景

    • 需求等多方面去拓展

  • 07,借助工具wescraper抓取数据

    • 网上数据量大
  • 08,安装及使用

    • 需要谷歌浏览器以及webscraper

    • 设置百度为默认搜索引擎

    • 使用:打开网页,右键审查元素,将布局视图改为上下

3

  • 09,300个案例模板,一键套用搜集信息

  • 课程设置

    • 目标效果图

    • 方法介绍|实操案例

    • 问题检测清单

    • 适用场景

    • 练习

  • 10,文字选择器,如何用1分钟抓取500个文章标题

    • 方法介绍

      • 打开webscraper,打开要抓取的网页,右键点击审查,打开webscraper

      • 创建sitemap:sitename格式字母+数字,字母开头,最少3个字符,不能重复。

      • 设置seletor规则,即爬取规则

        • text选择器,应当是最常用的,经常不单独使用。

        • link选择器,会自动将标题与链接爬取出来,适用于抓取网上的超链接信息。

        • 图片选择器,image选择器

        • 信息块element选择器,多个信息,标题,点赞数,评论数,适用于将多个信息整体抓取

          • 先设置父选择器,选择某个块

          • 再设置子选择器,子选择器不要选multiple

          • element必须创建子选择器

  • 11,滚动翻页选择器

    • delay是2000毫秒,可以爬取所有页数的数据。
  • 12,点击翻页选择器

    • 如果要抓取的网页,需要不断点击某处,才能显示更多信息,就适用element clik
  • 13,多页选择器

    • 分析url的规律,用中括号设置翻页,从后页往前页抓取,即从后往前翻
  • 14,二级页面,抓取内容标题

    • 先设置link选择器,再设置子选择器

4

  • 15,一套思路,应对所有类型网站

    • 先分析要什么样的信息,选择什么样的选择器

5

6

7

8