0

shell批量提取76页百度搜索结果url

Posted by 晴云孤魂 on 2016 年 12 月 10 日 in Program Development, windows Script Design |

刚才@行书QQ上问我有没有可以批量提取百度前76页搜索结果URL的shell或者python,刚好之前有写过这样一个shell小脚本,现分享出来。

看完下面的代码,你可能会说,这不是跟刚才那篇《网站竞争对手分析教程(1):用shell快速挖掘同行网站》代码一样吗?哈哈,的确差不多,只不过刚才那篇教程里只获取百度前5页搜索结果,而这篇是获取百度76页结果的,用处还是不一样的!

用法

1、切换工作路径,注意cd命令后面有空格(所有的命令跟参数之前都有空格!)

cd /cygdrive/c/Users/fang/Desktop/新建文件夹

2、运行程序,加一个time命令查看最后完成任务用时多少。bash -x表示显示程序执行过程。

time bash -x baidu76.sh

baidu76.sh的源代码如下,大家可以直接粘贴到记事本里,把扩展名改为.sh就可以用了,当然,你要是懒得动手的话,文章底部可以下载原文件。

源代码

#!bin/bash

#############本工具由【方法SEO博客http://seofangfa.com】提供,欢迎反馈问题~~~#############
#############2015年8月14日#############

#############作用################
#用shell批量提取76页百度搜索结果url

#############用法################
#1、安装cygwin,【高清视频!】win7系统Cygwin安装教程及常用工具安装使用教程:http://seofangfa.com/shell/cygwin-setup.html
#2、cd 命令切换到工作目录;
#3、输入time bash -x baidu76.sh
#4、等运行完毕,查看结果,结果存在ok.txt文件中。

#############注意事项#############
#1、kws.txt:关键词列表,一行一个,UTF-8编码
#2、ok.txt:百度搜索结果76页的URL集合
#3、关键词越多,结果越准确,所以,第一步你得挖掘足够多、足够精准的行业关键词,教程看下面:
##1、【超级简单好用!】批量采集百度相关搜索关键词:http://seofangfa.com/seo-tool/baidu-related.html
##2、【亲测好用!】shell批量采集百度下拉框关键词:http://seofangfa.com/seo-tool/shell-baidu-xiala.html
##3、shell快速批量获取百度商情关键词【带指数】:http://seofangfa.com/shell/baidukeyword-shangqing.html

#批量提取76页百度搜索结果url
a=0
cat kws.txt|while read line;do
	let a+=1
	echo $a
	echo $line
	for i in `seq 0 10 750`;do 
		curl -s "http://www.baidu.com/s?wd=$line&pn=$i" | grep -o "http://www.baidu.com/link\?[^\"|\']*"|xargs curl -s -i|grep "Location"|sed 's/Location://g'; 
	done >>ok.txt
done

效果见下图:

shell批量提取76页百度搜索结果url

由于shell是单线程工作,效率相对比较低,基本上获取一个词的百度76页结果需要1分钟左右,不过相对于我们手动来查找的,效率还是非常可以的,毕竟可以挂服务器上让它自动去工作~~

shell批量提取76页百度搜索结果url程序下载

点击下载:shell批量提取76页百度搜索结果url程序下载

有问题在下面留言框给我反馈~~~

发表评论

电子邮件地址不会被公开。 必填项已用*标注

使用腾讯微博登陆

Copyright © 2011-2017 晴云孤魂's Blog All rights reserved.
This site is using the Desk Mess Mirrored theme, v2.2.2, from BuyNowShop.com.

普人特福的博客cnzz&51la for wordpress,cnzz for wordpress,51la for wordpress