上一篇和大家讲解了我理解的网络数据采集爬虫系统的使用场景与价值,以及常见的几种语言实现的爬虫框架大致

上一篇和大家讲解了我理解的网络数据采集爬虫系统的使用场景与价值,以及常见的几种语言实现的爬虫框架大致分析,这些框架基本都是围绕开源的技术实现展开的,其实商业化非开源的爬虫产品也有很多,这个在市场上毕竟还是个香饽饽,今天就和大家从技术实现,产品,盈利模式等方面来评测一下;

首先我来翻一下国外的爬虫和数据挖掘的公司:

diffbot,这是被腾讯资本加持的一家人工智能公司,通过人工智能技术,让“机器”识别网页内容,抓取关键内容,并输出软件可以直接识别的结构化数据,并且该公司号称自己拥有业界最大的知识图谱,怪不得它能被腾讯看上,敢情是披上了人工智能的外衣的高级数据采集公司,目前该公司拥有三款产品,主要是saas模式,算是目前了解的爬虫技术公司里博得头筹的一家公司了,当然一些大厂,比如谷歌,雅虎内部也有这样的系统,但没有轻易示人。

import.io,相比较diffbot,这家爬虫技术公司从产品到解决方案输出,还是覆盖得比较全面,同时也提供了强大的可视化爬虫界面,少却了人工智能的马甲,也是爬虫界里踏踏实实的一家公司了,主要模式也是saas,同时提供数据抽取解析转换,然后通过api的方式输出,至于用到的技术还没发深入细究。

scrapinghub,官网:链接,它作为scrapy开源框架背后的商业公司,首先给一个大大的赞,毕竟把scrapy这么优秀的爬虫框架开源了,还是造福了不少爬虫工程师啊,只不过scrapinghub作为云上版本,退出了一些付费服务,包括代理ip,splash,cloud等,同时scrapinghub的开源版本也提供了portia这样可视化的功能,相信对于不少爬虫小白还是相当友好的,但个人认为使用场景有限,如何玩转scrapinghub,我也会在后续的爬虫技术篇中帮大家一起来梳理实战一下,总之对于想从事爬虫事业的同学来说,这个项目和产品是不得不关注的。

apify,该公司提供的产品从页面和功能,就是我比较喜欢的范,简单大方实用,为什么实用呢?首先它的定位就是面向一线开发者,提供了利用js代码实现爬虫逻辑,我这里不是说可视化爬虫技术就多么不好,只是我理解爬虫从一开始就不是一个人人可用可玩的玩具或者消费品,当然我后面也会讲为什么我这么理解,既然提供了可编程的模式,我相信apify的实用性,同时apify也提供了一些类似actor这样的高级特性,笔者猜测只是使用了一些虚拟化的技术来让实现租户资源权限隔离。

国外的公司就先列出以上这四家比较具有代表性的公司,其它大大小小的公司肯定也是不少的,在此就不一一列举了,接下来该上点中国菜了。

神箭手,作为国内我首推的爬虫技术公司,它的定位是大数据+AI的云os,定位归定位,我看到的它只是一家卖爬虫和数据的公司,AI能力我反正是看不到,就不和diffbot做比较了,实在没有可比性,当然作为国内市场的爬虫一哥,它也是有自己独特之处的,比如它也提供了js可编程能力的爬虫视窗,而且最近也提供了基于scrapy框架的云爬虫开发环境,说白了,他们提供的js开发爬虫环境功能凑合,笔者也是做了专门研究,底层不是使用v8引擎来实现的,而是通过java8的Nashorn引擎做的,整个技术栈基本围绕java+php,但我还是觉得他们产方向和定位还是不错,还需要提升自己来打破市场证明自己。

八爪鱼,作为深圳的一家爬虫技术公司,和神箭手的定位还是有所差异,毕竟从产品设计上来看,神箭手更偏互联网化,而八爪鱼更像是在提供一个工具,面向B端客户,更保守一点,同时也提供了可视化客户端帮助爬虫小白快速入手,也提供了一些行业解决方案,尽管它也提供了saas收费模式。

造数,从官网和产品设计风格来看,该公司主打的是可视化爬虫和互联网玩法,但不得不说,产品功能稍显粗糙,且对于爬虫的理解不是非常深刻,有可能是我比较片面吧。

以上也分析了国内国外7家爬虫产品,基本内核就是将web的非结构化数据结构化的工程,这应该爬虫技术的内核吧,只是说使用的技术和产品表达形式有差异而已,不管你是用人工智能深度学习,还是使用简单粗暴的方式,解决的只是规模化和人力成本问题,但愿这些对你有所启发,到此竞品篇以结束,也许还很浅薄,但愿后面还能有时间精力把这些竞品分析得更彻底完整一点吧

关于我对爬虫技术与产品,及其商业化的理解,目前漫谈篇三讲已更新,接下来是架构与具体项目实战,有心的同学结合亦仁的如何挖掘互联网的工具产品应该有很好的化学反应,公号: NoFootBird,可以关注一起碰撞。

给TA打赏
共{{data.count}}人
人已打赏
生财

差异化是解药,也是毒药。 差异化是很好的切入方式,避开厮杀的红海,找到非充分竞争的蓝海,开拓没人关

2024-4-9 10:15:11

生财

关于我对爬虫技术与产品,及其商业化的理解,目前漫谈篇三讲已更新,接下来是架构与具体项目实战,有心的同

2024-4-9 10:15:13

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索