数据采集

先通过关键词获取搜索结果页,http://www.baidu.com/s?wd=%E5%BE%B7%E9%97%AE
然后得到每一条详情的url,比如第一条是
http://www.baidu.com/link?url=Fp3X9GDNzDR4aoC670eWN-VzZ-f8cAngzl6zK1n1bZi&wd=&eqid=f0d0de2f0...

2016-01-13 •

数据网站:https://www.sgs.gov.cn/notice/home
参考网站:http://so.qudaba.com/search?name=%E4%B8%8A%E6%B5%B7&provice=SH&key=%E5%AE%9D%E8%B4%9D
请问下,参考网站里面的数据是通过采集数据网站来实现的么?感觉不太可能,这个数据量是...

2015-01-04 •

采集知网里面论文信息遇到一些问题,采集到的列表页里的url,不能够直接打开这个url,然后模拟referer来采集,有部分打不开,到后面就弹框说“不存在记录集”。
有帐号。

2014-04-12 •

最近在做一个项目,大概是如此:
1. 自动登录。在我的软件M中输入A网站的普通用户帐号密码,进行自动登录;
2. 登录后台自动爬到目标页面,进行目标页面的信息采集(text,javascript内容等),并将信息放入软件M中;
3. 对软件M中显示的从A目标网页获取的信息进行修改,并将修改信息同步到A网站中的相应位置(还是text,JavaScript...

2013-12-06 •

找了一大圈终于找到你这关于淘宝url分析的,你好,我想请教一下像http://aiyongyd.m.tmall.com/和http://nawain.m.tmall.com/,在查看源代码时候,为什么url里会出现前者有conditions=,后者没有的情况,我查了好多家店,再如http://daphne.m.tmall.com/ 为什么好多都没有啊,请教美...

2013-06-27 •

请问有木有人做过分页 然后页码所在的链接中传递的参数不是递增的 而是周期性的啊 就不是 1 2 3… 10 11 这样的 而是 1 2 3 …. 10 1 2 3 这样的;然后我搞不懂服务器那边是怎样判断第2页还是第12页的。。因为传过去的链接是一样的

网址如下:http://www.hrssgz.gov.cn/vsgzpiapp01/GZPI/Gatew...

2013-06-25 •

RT
最近公司需要做数据抽取就是从word、pdf、excel中把文本内容提取出来。
但是遇到的麻烦事处理用POI操作word和excel的时候文件不能太大,9M左右就报告“堆内存溢出”了。
敢问各位高人有啥办法解决没?至少要能处理40M左右的文件。

本人的jvm没有优化过。优化了是不会好些?有没有具体操做方法

还有就是用POI处理4M左右的word文档...

2013-03-22 •

webService、ftp、socket等有何利弊

2012-11-05 •

德问是否支持收藏夹功能?看到一些很不错的答案想按标签收藏,不过貌似没找到按钮

2012-10-11 •

热点用户排行

话题状态

最近活动:很久很久以前
该话题下的问题共被浏览 16993 次