在信息爆炸的时代,爬虫能够做什么?

“我们不生产数据,我们只是数据的搬运工”这句话大概是最能高度概括爬虫的核心功能了。

在信息爆炸的时代,爬虫能够做什么?

当一辆车消失天际,

当一个人成了谜,

你不知道,他们为何离去…

在一个午后,偶然听到邓紫棋的这首《后会无期》,心里想着,一个人,不在你身边,他真的成了谜了吗?程序员出身的我看未必…前一秒文艺范,后一秒码农出场是不是杀你一个猝不及防(狗头)。收益于当今大数据垂手可得的时代,任何一个人似乎都逃不过互联网的监控,一切你的行为,都可以在网上被搜寻追踪到。正因为如今是信息爆炸的时代,任何信息似乎都能通过网络获得,正因为信息可获取,也成为不少企业或产品从中看到了商机,诞生了爬虫行业。想起跟产品、设计同学聊天中,有不少同学问我,爬虫其实是什么,所以在这篇文章里,笔者就简单谈谈对爬虫的看法,聊聊他能够做什么。

 

爬虫的概念

                

 

爬虫是什么?百度百科是这样解释的:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

通俗来说,爬虫是模拟人类访问网站行为,可以自动请求网页,把数据爬取下来,然后使用一定的规则提取有价值的数据。

举个简单的例子,最近在热播的选秀节目《明日之子第三季》,经过第一第二期的初试考核,最后留下53位选手,你想获取他们每个人的身高、年龄、粉丝量、星座、所属经纪公司的分布情况,要是手动一个一个去搜索资料,恐怕大半天时间就没了。这个时候就是爬虫技术大显身手的时候了,我们可以用 python 写一段程序,它能从你指定的一个或多个网站上读取和记录数据,模拟人去百度百科、微博去搜索他们的资料,把相对应的信息爬取下来存到一个文件里,没一会你就可以得到你想要的所有信息了。团队同学去年就针对《创造101》节目里的小姐姐,通过爬虫对她们做了一次资料分析,有兴趣可以看:创造101的小姐姐,了解一下?

而最最最常见大家都知道的爬虫一个使用场景,就是我们平时用来搜索资讯的百度、Google。这些公司是怎么把别的网站的数据聚集在一起,供给用户看的,当然就是网络爬虫没日没夜地工作的功劳了。

 

爬虫是怎么做的?

                

爬虫技术也并不神秘,无非分为三步:“爬”上网页、“铲”下数据,进行加工清洗。正如文章摘要说,爬虫不是数据的生产者,而是数据的搬运工。爬虫是怎么把寻找到我们想要的数据呢?原理很简单,首先给爬虫几个我们想要爬取信息的 URL,爬虫顺着这个 Url 访问到页面,对网页的信息进行分析筛选出我们想要的数据,一部分是网页的有效信息,另一部分是网页中的 Url 链接,通过这些链接,我们又可以获取 更多其他数据,通过这样反复操作,互联网上的海量数据都可以抓取下来了。

如果把爬虫比喻成一个黄金矿工,金子就在那了,但是能不能挖到,能不能快速地挖到,还是有一定技术含量的。这里我们就不展开来讲爬虫的技术细节了。

 

爬虫能够做什么?

                

简单一句,爬虫就是获取大数据信息。而通过爬虫获取信息,如今也应用在各种功能方向上。咱们先不讲对与错、是与非,这里举几个例子。

 

(1)丰富产品内容

一些产品在刚启动阶段,由于内容生产能力成本太高,也没有太多的 UGC 需要大量信息填充丰富内容框架,特别是一些资讯类产品,如即刻、今日头条等。在他们的初期,都通过爬取其他网站的信息,抓到自家产品上。“即刻”是一款精选信息社区,现在已经有大量的用户贡献各品类 UGC 内容,而在一开始,即刻爬取各个渠道如知乎、微博、bilibili、豆瓣等平台上的内容,通过编辑排版后通过主题的分类方式展示给用户,帮助过滤掉无用或者用户不感兴趣的信息,精准推送,获得一批冷启动阶段的种子用户。

除了抓取信息资讯填充平台内容这个做法外,另一个比较常见的就是抓取用户在其他平台上,针对同个内容输出的评论。特别是对于一些有社交属性的平台,为了在初期氛围显得没那么冷清,通常会用评论机器人或者爬取别家评论的形式来营造出“热闹”的互动气氛。就在去年年底,就爆出了马蜂窝2100万条“真实评论”中,有1800万条都是从竞品网站上“抄袭”过来的。当然,这种未经平台方允许擅自把用户的评论扒来做商业化运营,显然是不正当的。

 

(2)用户研究与数据分析

在微博评论区,我们经常会看到有用户玩趣地说“1分钟,我要这个人的全部信息”。其实这句说说而已的话背后,还真的能做到快速获取一个人的信息,就正如文章一开头所说的快速获取《明日之子》里所有小姐姐的信息。说回产品运营本身,我们在做产品时,经常对行业用户喜好与画像、竞品数据监控、热点追踪等有一定的诉求,能够让我们及时了解到行业形态是怎样的,我们的用户是怎样的。

就用二次元行业为例,b站是二次元用户的精神家园。b站里面有丰富的内容,如生活类、游戏类、舞蹈类、国创番剧类等等,你能不能快速回答:哪种品类在b站上是最受欢迎的?哪个UP主最近的上升趋势最快?根据粉丝数和粉丝活跃度(投币、点赞、评论等行为的贡献)排名前10的UP主分别是哪些?想必是十分有难度的,而通过数据爬取和分析的一些手段,例如可以定期监控b站的排行榜,了解到哪些品类的内容上升趋势最快,最近大家都在谈论什么话题热点。也正因为有这些诉求,每年我们可以看到很多数据机构颁发一些诸如《Z时代消费力白皮书》等分析报告,快速了解到各行各业各用户分类的特点。

 

(3)信息变现

当然,最直接的方式就是通过数据爬取一步实现商业变现。网上也有好一些傻瓜式、不需要懂任何技术就可以帮助你快速实现数据采集的产品,连名字也非常地契合“数据爬取”的功能点。如后羿采集器、八爪鱼、爬山虎等。只要输入一个网站链接,简单配置一下,就能快速把想要的文字、图片、视频等信息扒下来。笔者体验过后羿采集器,真正地做到小白也会用、可视化操作进行数据采集。这些应用通过提供不同程度的功能支持,用会员套餐的形式实现商业变现。

又例如 App Growing 是一个移动广告分析平台,通过实时对多个媒体如今日头条、微博广告、百度广告、广点通等追踪到的广告归类到26个细分行业,让各行各业的用户都能迅速找到想要参考的广告。 通过推出专业版、旗舰版、定制版等不同套餐向客户收取费用。

以上我只列举了一些平常我们做产品功能时,可能会关注爬虫用到的领域和用途,而它还应用到各种比上述用途更灰色地带的事情,这里就不一一举例了…

 

爬虫广泛应用的背后

                

 

互联网充斥着形形色色的爬虫,各行各业都有不同规模的用户被爬虫爱好者盯上,背后的原因离不开其商业价值。这里再说一个很简单的例子,依然用动漫行业为例。你在百度搜索“一人之下漫画”,《一人之下》这一部是腾讯独家版权的漫画,搜索结果本应只有腾讯平台才有相关的章节漫画内容。但是排行第一的是一个名为“塔多漫画”的网站。这些小网站通过一些漫画CMS系统,爬取正版漫画网站资源并实现快速建站。绕过付昂贵漫画版权费用,建站后在网页上卖各种黄色小广告,实现流量变现。而正是这些不起眼、你可能根本不屑一顾的小网站,有可能正逐渐吞噬你的用户流量而不自知。

生产内容是需要成本的,获得用户也是需要成本的,的确在信息丰富甚至泛滥的互联网上,爬虫能够快速帮助我们低成本地获得我们想要的信息。但是通过爬虫技术,是深耕行业,还是剑走偏锋,这可能会走向两条截然不同的道路。

始发于微信公众号: 腾讯DeepOcean

发表评论