爬虫有用的数据网站

364次阅读
没有评论

作者:何明科
链接:https://www.zhihu.com/question/36132174/answer/89145038
来源:知乎

这个问题蛮适合我这种老爬虫来回答。

0、IT桔子和36Kr
在专栏文章中( zhuanlan.zhihu.com/p/20),抓取IT橘子和36Kr的各公司的投融资数据,试图分析中国各家基金之间的互动关系。
<img src="https://pic1.zhimg.com/a9f1d74191bccdd7561361865edc4a94_b.jpg" class="content_image">

<img src="https://pic3.zhimg.com/a2deb2bcd1d9460fb5af12c7e30857ca_b.png" class="content_image">

1、知乎
沧海横流,看行业起伏(2015年) – 数据冰山 – 知乎专栏,抓取并汇总所有的答案,方便大家阅读,找出2015年最热门和最衰落的行业
<img src="https://pic3.zhimg.com/4cd39c827e666b84cbd24c79f7ace246_b.png" data-rawwidth="734" data-rawheight="378" class="origin_image zh-lightbox-thumb" width="734" data-original="https://pic3.zhimg.com/4cd39c827e666b84cbd24c79f7ace246_r.png">有空的时候,准备写爬虫分析知乎的关系链。 爬虫有用的数据网站

有空的时候,准备写爬虫分析知乎的关系链。

2、汽车之家
大数据画像:宝马车主究竟有多任性? – 数据冰山 – 知乎专栏,利用论坛发言的抓取以及NLP,对各种车型的车主做画像。
<img src="https://pic1.zhimg.com/1824a7d2a09c6f0de7e41e9b2c549450_b.png" data-rawwidth="786" data-rawheight="295" class="origin_image zh-lightbox-thumb" width="786" data-original="https://pic1.zhimg.com/1824a7d2a09c6f0de7e41e9b2c549450_r.png"> 爬虫有用的数据网站
3、天猫、京东、淘宝等电商网站
超越咨询顾问的算力,在用户理解和维护:大数据改变管理咨询(三) – 数据冰山 – 知乎专栏,抓取各大电商的评论及销量数据,对各种商品(颗粒度可到款式)沿时间序列的销量以及用户的消费场景进行分析。
<img src="https://pic3.zhimg.com/795341959247dec67f28a5d23521acc2_b.png" data-rawwidth="907" data-rawheight="227" class="origin_image zh-lightbox-thumb" width="907" data-original="https://pic3.zhimg.com/795341959247dec67f28a5d23521acc2_r.png"> 爬虫有用的数据网站
甚至还可以根据用户评价做情感分析,实时监控产品在消费者心目中的形象,对新发布的产品及时监控,以便调整策略。
<img src="https://pic2.zhimg.com/23ac5cfac6ec090332d21f034fa62b79_b.png" data-rawwidth="897" data-rawheight="235" class="origin_image zh-lightbox-thumb" width="897" data-original="https://pic2.zhimg.com/23ac5cfac6ec090332d21f034fa62b79_r.png"> 爬虫有用的数据网站
4、58同城的房产、安居客、Q房网、搜房等房产网站
下半年深圳房价将如何发展 – 数据冰山 – 知乎专栏,抓取房产买卖及租售信息,对热热闹闹的房价问题进行分析。
<img src="https://pic1.zhimg.com/1bc654e9bb342d4eb641ffbbefd8ff5c_b.png" data-rawwidth="966" data-rawheight="280" class="origin_image zh-lightbox-thumb" width="966" data-original="https://pic1.zhimg.com/1bc654e9bb342d4eb641ffbbefd8ff5c_r.png"> 爬虫有用的数据网站
5、大众点评、美团网等餐饮及消费类网站
黄焖鸡米饭是怎么火起来的? – 何明科的回答,抓取各种店面的开业情况以及用户消费和评价,了解周边变化的口味,所谓是“舌尖上的爬虫”。
<img src="https://pic4.zhimg.com/f33c64adb95db5c74d333b6b3dd9d943_b.png" data-rawwidth="915" data-rawheight="312" class="origin_image zh-lightbox-thumb" width="915" data-original="https://pic4.zhimg.com/f33c64adb95db5c74d333b6b3dd9d943_r.png"> 爬虫有用的数据网站
以及各种变化的口味,比如:啤酒在衰退,重庆小面在崛起。
<img src="https://pic3.zhimg.com/2537161e142a6653fb0e1a87e8b9b7c6_b.png" data-rawwidth="789" data-rawheight="239" class="origin_image zh-lightbox-thumb" width="789" data-original="https://pic3.zhimg.com/2537161e142a6653fb0e1a87e8b9b7c6_r.png"> 爬虫有用的数据网站
6、58同城等分类信息网站
花10万买贡茶配方,贵不贵? – 何明科的回答,抓取招商加盟的数据,对定价进行分析,帮助网友解惑。
<img src="https://pic3.zhimg.com/a27ef823e193757105f0ba15810a13ca_b.png" data-rawwidth="600" data-rawheight="423" class="origin_image zh-lightbox-thumb" width="600" data-original="https://pic3.zhimg.com/a27ef823e193757105f0ba15810a13ca_r.png"> 爬虫有用的数据网站
7、拉勾网、中华英才网等招聘网站
互联网行业哪个职位比较有前途? – 数据冰山 – 知乎专栏,抓取各类职位信息,分析最热门的职位以及薪水。
<img src="https://pic4.zhimg.com/d0210ef45481a726f27c345b2ebeee7b_b.png" data-rawwidth="828" data-rawheight="250" class="origin_image zh-lightbox-thumb" width="828" data-original="https://pic4.zhimg.com/d0210ef45481a726f27c345b2ebeee7b_r.png"> 爬虫有用的数据网站
8、挂号网等医疗信息网站
如何评价挂号网? – 何明科的回答,抓取医生信息并于宏观情况进行交叉对比。
<img src="https://pic4.zhimg.com/c0f56f7a0b24ea0883a049a4937948fb_b.png" data-rawwidth="907" data-rawheight="273" class="origin_image zh-lightbox-thumb" width="907" data-original="https://pic4.zhimg.com/c0f56f7a0b24ea0883a049a4937948fb_r.png"> 爬虫有用的数据网站
9、应用宝等App市场
你用 Python 做过什么有趣的数据挖掘/分析项目? – 何明科的回答,对各个App的发展情况进行跟踪及预测。(顺便吹一下牛,我们这个榜单很早就发现小红书App的快速增长趋势以及在年轻人中的极佳口碑)
<img src="https://pic4.zhimg.com/8bd72ca1d34a859c8e373b028924a503_b.png" data-rawwidth="705" data-rawheight="227" class="origin_image zh-lightbox-thumb" width="705" data-original="https://pic4.zhimg.com/8bd72ca1d34a859c8e373b028924a503_r.png"> 爬虫有用的数据网站
10、携程、去哪儿及12306等交通出行类网站
你用 Python 做过什么有趣的数据挖掘/分析项目? – 何明科的回答,对航班及高铁等信息进行抓取,能从一个侧面反映经济是否正在走入下行通道。
<img src="https://pic1.zhimg.com/096b0c891066885a2476a3bbe71fe600_b.png" data-rawwidth="600" data-rawheight="375" class="origin_image zh-lightbox-thumb" width="600" data-original="https://pic1.zhimg.com/096b0c891066885a2476a3bbe71fe600_r.png"> 爬虫有用的数据网站
11、雪球等财经类网站
抓取雪球KOL或者高回报用户的行为,找出推荐股票
<img src="https://pic2.zhimg.com/c56146509995cf4462f4c3a9c803c52d_b.png" data-rawwidth="847" data-rawheight="629" class="origin_image zh-lightbox-thumb" width="847" data-original="https://pic2.zhimg.com/c56146509995cf4462f4c3a9c803c52d_r.png"> 爬虫有用的数据网站
12、58同城二手车、易车等汽车类网站
一年当中买车的最佳时间为何时? – 何明科的回答什么品牌或者型号的二手车残值高?更保值?反之,什么类型的贬值较快? – 二手车,找出最佳的买车时间以及最保值的汽车。
<img src="https://pic3.zhimg.com/62c0985c92b1ae96ee4c1a71b3cba7aa_b.png" data-rawwidth="767" data-rawheight="280" class="origin_image zh-lightbox-thumb" width="767" data-original="https://pic3.zhimg.com/62c0985c92b1ae96ee4c1a71b3cba7aa_r.png"> 爬虫有用的数据网站
13、神州租车、一嗨租车等租车类网站
抓取它们列举出来的租车信息,长期跟踪租车价格及数量等信息
<img src="https://pic4.zhimg.com/14e6016cc914c05d690455c7d8948a87_b.png" data-rawwidth="1257" data-rawheight="371" class="origin_image zh-lightbox-thumb" width="1257" data-original="https://pic4.zhimg.com/14e6016cc914c05d690455c7d8948a87_r.png"> 爬虫有用的数据网站
14、各类信托网站
通过抓取信托的数据,了解信托项目的类型及规模
<img src="https://pic3.zhimg.com/c48f749a00a522c8490dac54fa92f5a2_b.png" data-rawwidth="1283" data-rawheight="601" class="origin_image zh-lightbox-thumb" width="1283" data-original="https://pic3.zhimg.com/c48f749a00a522c8490dac54fa92f5a2_r.png"> 爬虫有用的数据网站

其实还有很多数据,不一一列举了。只要有爱数据的心和能爬的虫子,一切且有可能。顺利安利一下,抓取数据只是很小一部分,我们更擅长的是数据分析挖掘、可视化以及个性化的推荐。
————————————————————
更多文章关注我的专栏: 数据冰山 – 知乎专栏

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-10-24发表,共计6761字。
新手QQ群:570568346,欢迎进群讨论 Python51学习