用java编写 网络爬虫(又称网络蜘蛛)程序,即一个网络搜索引擎。寻求解决办法 用java编写 网络爬虫(又称网络蜘蛛)程序,即一个网络搜索...

\u7528java\u7f16\u5199 \u7f51\u7edc\u722c\u866b\uff08\u53c8\u79f0\u7f51\u7edc\u8718\u86db\uff09\u7a0b\u5e8f\uff0c\u5373\u4e00\u4e2a\u7f51\u7edc\u641c\u7d22\u5f15\u64ce\u3002\u5bfb\u6c42\u4ee3\u7801\uff01\u6025\uff01

\u5efa\u8bae\u4f60\u81ea\u5df1\u5199\u4e00\u4e2a\u7a0b\u5e8f, \u539f\u7406\u5982\u4e0b:

1\uff09\u7528\u7a0b\u5e8f\u8c03\u7528 IE \u6216 Firefox \u53bb\u6253\u5f00\u7f51\u9875\u3002
2\uff09\u7528\u6d4f\u89c8\u5668\u63d0\u4f9b\u7684 API \u53bb\u53d6\u7f51\u9875\u91cc\u9762\u7684\u8d44\u6e90\u3002
3\uff09\u6839\u636e\u9700\u8981\u518d\u89e3\u91ca\u7f51\u9875\u91cc\u9762\u7684 URL \uff0c\u7136\u540e\u518d\u8c03\u75281\uff09\u7684\u6b65\u9aa4\u7ee7\u7eed\u3002

\u4ee5\u4e0a\u5c31\u662f\u7f51\u7edc\u722c\u866b\uff08\u53c8\u79f0\u7f51\u7edc\u8718\u86db\uff09\u7a0b\u5e8f\u7684\u505a\u6cd5\u3002

\u4f60\u60f3\u8981\u4ec0\u4e48\u6548\u679c\uff0c\u60f3\u7528\u6765\u89e3\u51b3\u4ec0\u4e48\u95ee\u9898\uff0c\u4eb2\uff0c\u9700\u6c42\u5206\u6790\u4e0d\u6e05\u695a\uff0c\u600e\u4e48\u7f16\u7a0b\uff1f

方法很多,我说一种方法吧。
你可以用HttpClient来获取网页的源码,然后在源码中分别查找每一个链接。
下面这一段代码就可以获取网页的的源码 strURL为网页链接
HttpClient client = new HttpClient();
client.getHttpConnectionManager().getParams().setConnectionTimeout(500);
client.getHttpConnectionManager().getParams().setSoTimeout(500);
method = new PostMethod(strURL);
client.executeMethod(method);
webStatus += method.getStatusLine().getStatusCode()+",";
if(! "200".equals(method.getStatusLine().getStatusCode()+"")){
if(! "".equals(method.getStatusLine().getStatusCode()+""))
return "";
}
InputStream is = method.getResponseBodyAsStream();
BufferedReader br = new BufferedReader(new InputStreamReader(is, currEncoding));
StringBuffer stringBuffer = new StringBuffer();
String str = "";
while ((str = br.readLine()) != null) {
stringBuffer.append(str);
}
content = stringBuffer.toString();

我不知道你还有什么具体的问题,有的继续追问。

先使用jsoup 爬取网络资源,再使用solr构建索引,就可以 了

用nutch.改改就是了

扩展阅读:免费网络爬虫网站 ... 爬虫一单多少钱 ... 爬虫python官网 ... 爬虫手机版 ... 永久免费的爬虫软件 ... java爬虫框架使用排行 ... javascript入门 ... 十大免费爬虫软件 ... java网络爬虫实训报告 ...

本站交流只代表网友个人观点,与本站立场无关
欢迎反馈与建议,请联系电邮
2024© 车视网