打印

兄弟们,考验你们的时候到了

兄弟们,考验你们的时候到了

东京华人网有人贴出这样的问题了,我相信我们这里也是人才一堆一堆的。
兄弟们可不能眼睁睁看着别人先把这玩意儿给搞定了,弟兄们上啊。
http://www.tokyocn.com/webpage/bbs/viewthread?thread=11963
问题如下:
引用:
电脑编程问题:各位大侠,小弟紧急求助  
最近遇到一难题:
在线网页,例如:http://tenshoku.mynavi.jp/
要求;能批量转换。例如:求职网站中,输入条件。一点检索能查出许多符合求职条件的公司。其中,这些公司一个网页现实不下。就会出现1页,2页。。。。。末页。等等。要求的批量转换就是把所有页的数据都转换到文本文件中或者CSV文件中。
PS:我说的数据就是检索出来的公司信息,保存到文本或者CSV中。
编程语言不限制,说说什么思路,我会常关注这个帖子。急急啊。
各位大侠有什么好的方法,或者有做过的代码可以贴上路。谢谢。所有代码都可以。
是我们这里版块扬眉吐气的时候了。 不能让他们把我们这儿的招牌给砸了是不?

TOP

逐字逐句地看完这个帖子以后,我的心久久不能平静,震撼啊!为什么会有如此好的帖子!我纵横网络BBS多年,自以为再也不会有任何帖子能打动我,没想到今天看到了如此精妙绝伦的这样一篇帖子!楼主,是你让我深深地理解了“人外有人,天外有天”这句话。谢谢侬!在看完这帖子以后,我没有立即回复,因为我生怕我庸俗不堪的回复会玷污了这网上少有的帖子。但是我还是回复了,因为觉得如果不能在如此精彩的帖子后面留下自己的网名,那我死也不会瞑目的!能够在如此精彩的帖子后面留下自己的网名是多么骄傲的一件事啊!楼主,请原谅我的自私!我知道无论用多么华丽的辞藻来形容楼主您帖子的精彩程度都是不够的,都是虚伪的,所以我只想说一句:您的帖子太好看了!我愿意一辈子看下去!这篇帖子构思新颖,题材独具匠心,段落清晰,情节诡异,跌宕起伏,主线分明,引人入胜,平淡中显示出不凡的文学功底,可谓是字字珠玑,句句经典,是我辈应当学习之典范。正所谓:“一马奔腾,射雕引弓,天地都在我心中!”楼主真不愧为无厘界新一代的开山怪!本来我已经对这个社区失望了,觉得这个社区没有前途了,心里充满了悲哀。但是看了你的这个帖子,又让我对社区产生了希望。是你让我的心里重新燃起希望之火,是你让我的心死灰复燃,是你拯救了我一颗拔凉拔凉的心!本来我决定不在社区回任何帖子了,但是看了你的帖子,我告诉自己这个帖子是一定要回的!这是百年难得一见的好贴啊!苍天有眼啊,让我在有生之年得以观得如此精彩绝伦的帖子!

TOP

CV,你怎么了?
信为人之本

TOP

这个问题,如果原网站没有提供接口或者服务的话,可行的也就只有根据具体页面做页面抓取了。这个问题这边不知道怎么样,但是国内很普遍。特别是机票火车票的查询这类用的比较多。
信为人之本

TOP

引用:
原帖由 admin 于 2008-6-25 12:31 发表
这个问题,如果原网站没有提供接口或者服务的话,可行的也就只有根据具体页面做页面抓取了。这个问题这边不知道怎么样,但是国内很普遍。特别是机票火车票的查询这类用的比较多。 ...
说起抓页面,我以前找到一个可以抓大屏的抓图软件,也就是超出屏幕高度的内容我们一般都是用滚动鼠标,然后一屏一屏的抓,很麻烦。而我找到的那个抓屏软件一下可以把内容从顶端抓到末尾,而不用一屏一屏的抓,可惜的是电脑瘫痪一次后,那个软件不见了,名字也想不起来了,超级郁闷中,你见过这样的软件没?

TOP

我就只用过snagit
http://mingongpeng.com/thread-134-1-1.html
不过好像没你说的那个功能
信为人之本

TOP

没想过这个问题,以前都是拿开发好的控件直接作分页。关注一下哈。
up 期待高手!

TOP

他不是分页,他是想把分好页的给合起来。
如果没给提供接口,那就只有一个萝卜一个坑,根据页面做元素解析,靠关键词跟结构把数据提取出来,然后再写到文件中了。
信为人之本

TOP

再开一个线程做异步处理不就完了吗。
最开始取信息的时候,每一页的检索条件都一样,或者只有index不一样,取出来后开线程 start,
往同一个文件里写数据
end

这样在初期化的时候就把文件做好了,不用再做后期结合了。

TOP

呵呵,你现在是不是研究线程啊。

不过写文件的时间相对于打开页面的时间可以不计了。
信为人之本

TOP