做了两年多的一个项目,第一次邀请测试,希望对您有用 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
sohoer
V2EX    分享创造

做了两年多的一个项目,第一次邀请测试,希望对您有用

  •  
  •   sohoer
    speed 2013-04-09 13:35:34 +08:00 16248 次点击
    这是一个创建于 4567 天前的主题,其中的信息可能已经有所发展或是发生改变。
    之前没想过把他做成产品只是按照自己的实际需求做,断断续续用业余时间做了快两年,为了完成这个项目在去年12月断然离职到现在全职做了4个月,
    现在总算是可以晒出来给大家用用了。

    他是一款WEB版的通用型网页数据采集工具,我叫他鸟巢采集器。
    鸟巢采集器拥有强大的内容采集和数据过滤功能,基于JAVA语言开发,是平台无关的可以在任何系统上运行。
    鸟巢采集器分WEB端和后端应用,WEB端不干预后端应用的逻辑只为后端应用提供可视化的操作界面,后端应用完全由用户部署管理,包含“采集器应用”、“爬虫池应用”、“爬虫应用”。
    通过WEB端对后端应用的接入,可以对后端应用进行可视化管理。

    鸟巢采集器访问地址:
    http://www.newcrawler.com/

    鸟巢采集器能做些什么:
    采集数据、博客迁移、友情链接检查、定向采集实现垂直搜索 等等。

    鸟巢采集器相比其它采集器的优势:
    1、平台无关,可以在任何系统上运行如:Linux、Windows ...
    2、可以运行在云环境 PAAS 平台上如:Google App Engine 、Sina App Engine 、AppFog ...
    3、Raspberry Pi 也是支持的。
    4、提供四种插件,让鸟巢采集器可以满足更多更复杂的需求。
    5、可以将采集到的数据以文本或附件的形式发布到指定的邮箱,如推送资讯到Kindle。
    6、使用WEB的管理方式,可以在任何终端上操作。
    总之最大的优势是WEB版平台无关,其它核心功能也都有。


    目前唯一一个在用鸟巢采集器抓取数据的网站:
    http://www.shishibi.com/

    如果您只想看看效果请使用下面的账号密码登录
    test
    test

    如果您想试用请留下邮箱,我将给您发送邀请码

    PS: 正式版发布后会考虑收费但肯定会至少有1个月的试用期,试用期过后后端应用还是可以正常使用的,只是不可以通过WEB端进行可视化管理,对于邀请注册的用户在正式版发布后至少可以多免费使用1年。
    提前声明英文版还没找专业人士翻译目前是直接GOOGLE的。
    鸟巢采集器还有一个爬虫分享计划,试想一下每抓取一个页面换一个IP是不是很爽呢,只是目前尚未启动 ^^
    第 1 条附言    2013-04-09 19:19:35 +08:00
    不知道有没有人发布应用,附上安装说明

    1.下载GAE发布工具 “windows-gae-deploy-tools.zip” 与采集器应用包 “soso-crawler-gae.zip”
    http://pan.baidu.com/share/link?shareid=359591&uk=539995500
    http://pan.baidu.com/share/link?shareid=366793&uk=539995500

    2.解压 windows-gae-deploy-tools.zip
    解压 soso-crawler-gae.zip 到发布工具的war目录,war目录结构如下:
    -war
    -WEB-INF
    -index.html
    -favicon.ico
    ....

    2.修改project-app-deploy.xml配置文件,
    your.gae.app.id #Google App Engine 的App Id
    your.gae.account #Google App Engine 的账户
    your.gae.account.password #Google App Engine 的账户密码

    3.双击运行 deploy.bat 进行发布

    4.发布成功后接入你的采集器应用到WEB端
    登录newcrawler.com在
    系统设置 > 采集器管理
    填上你的刚刚发布的应用地址和名称点添加,成功后你就可以在WEB端管理你的采集器应用了
    第 2 条附言    2013-04-09 20:28:22 +08:00
    还需要注意的一点,GAE应用需要Datastore Indexes创建好之后才能使用,大家可以在GAE的控制台查看Datastore Indexes 状态
    谢谢刚刚反馈的用户。
    149 条回复    2015-04-25 00:43:13 +08:00
    1  2  
    niko
        1
    niko  
       2013-04-09 14:03:38 +08:00
    貌似很NB的样子,给个邀请码吧, [email protected]
    ostrichmyself
        2
    ostrichmyself  
       2013-04-09 14:13:14 +08:00
    [email protected]

    看好你~
    Ziya
        3
    Ziya  
       2013-04-09 14:13:53 +08:00
    邀请下看看吧
    Ziya.TLF#Gmail.com
    sohoer
        4
    sohoer  
    OP
       2013-04-09 14:20:52 +08:00
    @Ziya
    @ostrichmyself
    @niko
    已发送,注意查收,谢谢支持!
    lj0014
        5
    lj0014  
       2013-04-09 15:17:44 +08:00
    来试用下,曾用scrapy爬过数据

    lj0014#gmail.com
    jerry
        6
    jerry  
       2013-04-09 15:25:51 +08:00
    嗯,有需求,来个邀请码试试嘛 lxb429#gmail.com
    Isight
        7
    Isight  
       2013-04-09 15:27:20 +08:00
    这个跨平台不错,求测试 zbq#live.cn
    iiduce
        8
    iiduce  
       2013-04-09 15:35:45 +08:00
    这个感兴趣 iiduce#163.com
    andybest
        9
    andybest  
       2013-04-09 15:39:41 +08:00
    求邀请,已注册了: hankfo#gmail.com
    jackyzy823
        10
    jackyzy823  
       2013-04-09 15:41:45 +08:00 via iPhone
    jackyzy823#gmail.com 感兴趣→_→
    nsxuan
        11
    nsxuan  
       2013-04-09 15:41:47 +08:00 via Android
    juven
        12
    juven  
       2013-04-09 15:47:07 +08:00
    感兴趣,谢LZ。juven.lab # gmail.com
    sohoer
        13
    sohoer  
    OP
       2013-04-09 15:48:19 +08:00
    @juven
    @nsxuan
    @jackyzy823
    @andybest
    @iiduce
    @Isight
    @jerry
    @lj0014

    已发送,注意查收,谢谢支持!
    binux
        14
    binux  
       2013-04-09 15:48:48 +08:00   1
    test账号试用了一下,感觉太复杂了,太流程化了

    贴一个我们的爬虫系统图,用程序化脚本控制
    sohoer
        15
    sohoer  
    OP
       2013-04-09 15:54:17 +08:00
    @binux 你这个不是通用的吧,自己定制是可以做到最简单的效果,如果每次都定制这个工作量就大了
    Mrlee
        16
    Mrlee  
       2013-04-09 15:59:15 +08:00
    Gmail: @Bestmrlee
    sevenday
        17
    sevenday  
       2013-04-09 15:59:20 +08:00
    麻烦发个邀请码,多谢! mustnot # gmail.com
    andybest
        18
    andybest  
       2013-04-09 16:36:30 +08:00
    @sohoer 是不是给账户默认提供一个环境?
    现在要自己有GAE,并且安装3份程序到自己GAE,自己机器还要装发布工具。。。。

    这个测试成本也太高了。。想简单看下功能都不行。。。。
    lj0014
        19
    lj0014  
       2013-04-09 16:36:39 +08:00
    试用了下,没整成功,总是报错。
    markmx
        20
    markmx  
       2013-04-09 16:38:03 +08:00
    imanbian#gmail.com
    求邀请码!
    andybest
        21
    andybest  
       2013-04-09 16:44:50 +08:00
    应用安装第一次安装没有成功,
    现在现在再点就是“请升级您的账户”了。
    sohoer
        22
    sohoer  
    OP
       2013-04-09 16:48:09 +08:00
    @andybest
    要想用GAE、APPFOG的免费空间是麻烦点,需要自己手动部署,为了方便部署我提供了一个GAE的发布工具。
    也可以部署在本地那样也需要做端口映射让外网可以访问

    @lj0014 刚刚有人使用了GAE在线安装,这个功能其实已经做好了,只是需要我提供服务器来发布你的GAE应用,只是目前还没有提供这台服务器。所以我暂时把它这功能关了,

    现在需要您在本地发布,我有提供一个GAE发布工具,按照Readme.txt中步骤应该可以发布成功
    sohoer
        23
    sohoer  
    OP
       2013-04-09 16:48:55 +08:00
    @andybest 原来是你,不好意思我刚刚把这功能关了
    andybest
        24
    andybest  
       2013-04-09 16:51:03 +08:00
    @sohoer 至少提供一个默认的“采集器”吧
    说实话作为一个WEB项目让人安装程序有点不应该

    另外有测试成功的吗?发布个教程呗。。。
    sohoer
        25
    sohoer  
    OP
       2013-04-09 16:51:29 +08:00
    @Mrlee
    @sevenday
    @markmx

    已发送,注意查收,谢谢支持!
    sohoer
        26
    sohoer  
    OP
       2013-04-09 16:52:55 +08:00
    @andybest
    "Google App Engine 发布工具" 用这个工具无法发布GAE应用吗? 这个工具我测试过的呀!
    lj0014
        27
    lj0014  
       2013-04-09 16:53:30 +08:00
    @sohoer 我就是刚用了GAE在线安装
    andybest
        28
    andybest  
       2013-04-09 16:54:57 +08:00
    @sohoer 恩,我觉得你这个页面框架做的不错,比如异常堆栈的输出/显示方法,安装过程信息的同步输出这些,所以觉得东西做的应该值得看
    sohoer
        29
    sohoer  
    OP
       2013-04-09 16:56:37 +08:00
    @lj0014
    @andybest
    你们下载"Google App Engine 发布工具"这个工具发布吧!
    sohoer
        30
    sohoer  
    OP
       2013-04-09 16:57:05 +08:00
    @andybest 全是HTML+ajax
    sohoer
        31
    sohoer  
    OP
       2013-04-09 16:57:35 +08:00
    @andybest 目前是部署在GAE上的
    sohoer
        32
    sohoer  
    OP
       2013-04-09 16:59:38 +08:00
    @andybest 我一定会努力把功能都做好的,谢谢你
    wingoo
        33
    wingoo  
       2013-04-09 17:07:07 +08:00
    地址打不开了?
    csx162
        34
    csx162  
       2013-04-09 17:10:46 +08:00
    支持一下,以前都用火车,想试试这个,求邀请
    sohoer
        35
    sohoer  
    OP
       2013-04-09 17:11:34 +08:00
    @wingoo 看来WEB端部署在GAE不是长久之计
    sohoer
        36
    sohoer  
    OP
       2013-04-09 17:12:56 +08:00
    @csx162
    67a64bbf656901c5
    l0wkey
        37
    l0wkey  
       2013-04-09 17:14:36 +08:00
    zzm110112@163.
    xiiing
        38
    xiiing  
       2013-04-09 17:17:00 +08:00
    可不可以导出腾讯微博?
    sohoer
        39
    sohoer  
    OP
       2013-04-09 17:19:18 +08:00
    @xiiing 能给个微博地址吗,我试抓一下
    inroading
        40
    inroading  
       2013-04-09 17:27:25 +08:00
    挂上VPN就可以打开了
    求邀请 inroading#gmail.com
    sohoer
        41
    sohoer  
    OP
       2013-04-09 17:31:50 +08:00
    @xiiing
    刚刚看了下腾讯微博的数据,不是ajax的,只要不是ajax的100%是可抓取的,ajax的会有些不确定性,得看Javascript解析引擎

    @l0wkey
    @inroading
    已发送,注意查收,谢谢支持!
    drupal
        42
    drupal  
       2013-04-09 17:45:54 +08:00
    希望能够测试drupal#sina.cn
    Wy4q3489O1z996QO
        43
    Wy4q3489O1z996QO  
       2013-04-09 17:51:40 +08:00
    希望能够测试一下 romotc#@#gmail .dot. com
    kamehamehon
        44
    kamehamehon  
       2013-04-09 18:08:15 +08:00
    @sohoer 求一个联系方式
    workaholic
        45
    workaholic  
       2013-04-09 18:10:59 +08:00
    关注你很久了哥们, ^_^ , v2sker # gmail.com
    sohoer
        46
    sohoer  
    OP
       2013-04-09 18:13:21 +08:00
    @kamehamehon
    其实收了邀请码的都可以联系到我的


    @drupal
    @romotc
    @workaholic
    已发送,注意查收,谢谢支持!
    workaholic
        47
    workaholic  
       2013-04-09 18:26:35 +08:00
    @sohoer 不能添加爬虫池,提示"错误:需要升级您的账户"
    durrrr
        48
    durrrr  
       2013-04-09 18:30:54 +08:00 via Android
    求邀请
    ihaku4#gmail.com
    sohoer
        49
    sohoer  
    OP
       2013-04-09 18:32:19 +08:00
    @workaholic 爬虫池还没有开放,添加一个采集器应用就可以爬数据了.
    AnyOfYou
        50
    AnyOfYou  
       2013-04-09 18:44:30 +08:00
    看上去很棒!
    anyofyou(AT)gmail.com
    nan0kai
        51
    nan0kai  
       2013-04-09 19:12:11 +08:00
    @sohoer
    感觉潜力相当大。求邀请码帮你测试试用下
    [email protected]
    谢谢
    binux
        52
    binux  
       2013-04-09 19:48:19 +08:00
    @sohoer 当然是通用的了,你需要为每个站加规则,而我通过代码表达规则
    sohoer
        53
    sohoer  
    OP
       2013-04-09 19:56:33 +08:00
    @binux 好吧是不是可以把他当成一个DOS 一个WIN的区别
    sohoer
        54
    sohoer  
    OP
       2013-04-09 19:58:33 +08:00
    @binux 不过确实还不够简单,到时我会考虑将一些不常用的选项做为高级选项隐藏起来
    thedevil5032
        55
    thedevil5032  
       2013-04-09 19:59:20 +08:00 via iPad
    @binux 可以弱弱地问问你的截图里是个什么软件吗?
    binux
        56
    binux  
       2013-04-09 20:00:46 +08:00
    @sohoer 用代码更灵活,任何页面都可以爬,任何情况都能适配,要新功能import就可以
    甚至可以在框架内实现一套你的导出规则,当然要有一点代码基础。。不过用的是python还好。。
    jeansfish
        57
    jeansfish  
       2013-04-09 20:00:55 +08:00
    jeansfish#####outlook.com
    来一个看看
    binux
        58
    binux  
       2013-04-09 20:01:11 +08:00
    @thedevil5032 我们自己开发的爬虫引擎
    kaifazhe
        59
    kaifazhe  
       2013-04-09 20:05:17 +08:00
    admin#html5点cn

    发一个,谢谢
    sohoer
        60
    sohoer  
    OP
       2013-04-09 20:10:01 +08:00
    @binux 其实我的也很灵活的,有抓取插件,Javascript的支持就是通过插件实现的,其实越灵活变相的就越复杂,我发现我这工具目前都无法面向一般的大众用户的。
    adspe
        61
    adspe  
       2013-04-09 20:11:33 +08:00
    不错
    来一个
    [email protected]
    lushnis
        62
    lushnis  
       2013-04-09 20:25:14 +08:00
    求邀 lushnis[AT]gmail.com
    huangzxx
        63
    huangzxx  
       2013-04-09 20:29:08 +08:00
    zhongxin.huang[at]gmail.com 谢谢。。
    sohoer
        64
    sohoer  
    OP
       2013-04-09 20:30:33 +08:00
    以上用户邀请码都以发送如果没有收到请与我联系,谢谢支持!
    anyalso
        65
    anyalso  
       2013-04-09 22:22:32 +08:00
    我也求一个 anyalso[at]yahoo.com.cn,谢谢
    pengdu
        66
    pengdu  
       2013-04-09 23:30:55 +08:00
    赞楼主!
    python有个scrapy,做爬虫很好。之前小弄了个快播电影站(http://17sotv.com/),就是用的scrapy,从页面采集,解析,入库一条龙服务。
    yuhuofeihe
        67
    yuhuofeihe  
       2013-04-09 23:33:27 +08:00
    sohoer
        68
    sohoer  
    OP
       2013-04-09 23:45:12 +08:00
    @yuhuofeihe
    @anyalso
    已发送,注意查收,谢谢支持!

    @pengdu
    谢谢!其实我也有很多站想做的。
    Yannis1990
        69
    Yannis1990  
       2013-04-10 00:10:11 +08:00
    求邀请,求测试.... excellentbright#gmail.om
    TigerS
        70
    TigerS  
       2013-04-10 01:46:37 +08:00
    给一个邀请吧,z.jiang##queensu.ca
    ksky
        71
    ksky  
       2013-04-10 07:13:14 +08:00 via iPhone
    要个邀请 hebine#me.com
    guokb
        72
    guokb  
       2013-04-10 08:51:13 +08:00
    @sohoer 同球邀 guokb0922[at]126.com !
    parkman
        73
    parkman  
       2013-04-10 09:51:41 +08:00
    求邀请码 [email protected]
    zetttt
        74
    zetttt  
       2013-04-10 10:11:08 +08:00
    同求邀请码 [email protected]
    haker
        75
    haker  
       2013-04-10 11:15:43 +08:00
    求邀请码 myhaker[at]gmail.com
    jasla
        76
    jasla  
       2013-04-10 11:41:27 +08:00
    langqixu[at]gmail.com
    感谢。
    mirfish
        77
    amirfish  
       2013-04-10 11:58:21 +08:00
    求邀请码,谢谢!
    amirfish.cn[at]gmail.com
    hdinfo
        78
    hdinfo  
       2013-04-10 12:04:07 +08:00
    球邀请码,谢谢
    [email protected]
    sohoer
        79
    sohoer  
    OP
       2013-04-10 13:13:30 +08:00   1
    @TigerS
    @ksky
    @guokb
    @parkman
    @zetttt
    @haker
    @jasla
    @amirfish
    @hdinfo

    邀请码已发,谢谢支持!
    xiiing
        80
    xiiing  
       2013-04-10 16:50:38 +08:00
    @sohoer t.qq.com/sailingyang
    谢谢,一直想导出来
    Tinet
        81
    Tinet  
       2013-04-10 17:52:23 +08:00
    tinetkiller#gmail.com
    给我也发一个吧
    sohoer
        82
    sohoer  
    OP
       2013-04-10 20:44:28 +08:00
    @xiiing
    目前只提供抓取与通过接口发布,还没有数据导出的功能。

    @Tinet
    邀请码已发,谢谢支持!
    madfrog1984
        83
    madfrog1984  
       2013-04-10 20:51:28 +08:00
    madfrog1984#gmail.coom 求邀请码
    firsthym
        84
    firsthym  
       2013-04-10 22:09:32 +08:00
    penglilonghc
        85
    penglilonghc  
       2013-04-11 06:08:38 +08:00
    penglilonghc#gmail.com 求缴请,求测试
    molinxx
        86
    molinxx  
       2013-04-11 06:11:23 +08:00 via iPhone
    uoryon
        87
    uoryon  
       2013-04-11 07:46:09 +08:00
    dengyunxuan
        88
    dengyunxuan  
       2013-04-11 10:15:33 +08:00
    dengyunxuan#qq.com 求邀请!!!
    DXpro
        89
    DXpro  
       2013-04-11 11:09:37 +08:00
    [email protected] 求邀请!!!
    welsmann
        90
    welsmann  
       2013-04-11 11:20:49 +08:00
    [email protected],求邀请!!!
    sohoer
        91
    sohoer  
    OP
       2013-04-11 13:19:53 +08:00
    @madfrog1984
    @firsthym
    @penglilonghc
    @molinxx
    @uoryon
    @dengyunxuan
    @DXpro
    @welsmann

    邀请码已发,谢谢支持!
    solo7net
        92
    solo7net  
       2013-04-11 13:42:46 +08:00
    我来试用
    solo.7net 爱它 gmail.com
    creeper
        93
    creeper  
       2013-04-11 17:15:24 +08:00
    求邀请码,谢谢了~ [email protected]
    XDA
        94
    XDA  
       2013-04-11 17:42:02 +08:00
    码子在哪里? [email protected]
    Tianpu
        95
    Tianpu  
       2013-04-11 22:23:31 +08:00 via iPhone
    dull # live.com

    谢谢
    glongzh
        96
    glongzh  
       2013-04-11 22:48:53 +08:00 via Android
    很感兴趣!

    glongzh#126.com

    谢谢!
    lin
        97
    lin  
       2013-04-11 23:06:40 +08:00
    khb_gl
        98
    khb_gl  
       2013-04-12 00:01:38 +08:00
    [email protected] 可以很强大。 求白名单适用
    koon_kai
        99
    koon_kai  
       2013-04-12 00:25:17 +08:00 via Android
    [email protected] 求邀请使用
    yearsaaaa
        100
    yearsaaaa  
       2013-04-12 16:00:27 +08:00
    1  2  
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1245 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 31ms UTC 17:21 PVG 01:21 LAX 10:21 JFK 13:21
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86