求各种推荐指导,毕设题目是《垃圾网页检测及其在垂直搜索中的应用》,作为大四毕业生还没有做过类似的项目,不知从何入手,希望有大牛能指点一二~ - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Huntor
V2EX    问与答

求各种推荐指导,毕设题目是《垃圾网页检测及其在垂直搜索中的应用》,作为大四毕业生还没有做过类似的项目,不知从何入手,希望有大牛能指点一二~

  •  
  •   Huntor 2012-03-08 13:19:41 +08:00 5095 次点击
    这是一个创建于 4971 天前的主题,其中的信息可能已经有所发展或是发生改变。
    16 条回复    1970-01-01 08:00:00 +08:00
    shellex
        1
    shellex  
       2012-03-08 13:28:50 +08:00
    类似内容审查吧。关键是怎么你们定义垃圾网页的?
    Huntor
        2
    Huntor  
    OP
       2012-03-08 14:01:40 +08:00
    毕设只有题目,关于垃圾网页的界定,可以由自己判断,通常对于垃圾网页的定义:不能为用户提供有效信息,仅仅为了提升在搜索结果中的排名。另外,关于这本书《开发自己的搜索引擎-Lucene 2.0+Heritrix》谁有电子版的可以发我吗?
    Tianpu
        3
    Tianpu  
       2012-03-08 14:39:13 +08:00 via iPad
    我觉得可以从机器学习的角度考虑

    对应着比如垃圾邮件就有比较成熟的方案,傅立叶级数筛选什么的

    具体参考ruanyifeng.com的某一篇博客,有不错的入门介绍
    lisztli
        4
    lisztli  
       2012-03-08 14:55:20 +08:00
    @Tianph "傅立叶级数筛选"求详情? 关键词没搜到,只知道贝叶斯
    kfc315
        5
    kfc315  
       2012-03-08 17:02:56 +08:00
    俺不做这一块儿。
    不过,进入一个新领域前,google scholar 和 arnetminer.org 会是最好的工具。
    找一些 survey / review 之类的看看吧。这种课题不可能没有人没做过。

    @Tianpu 说的那篇博客是《黑客与画家》中的一章。这本书很好,推荐。
    wong2
        6
    wong2  
       2012-03-08 17:16:30 +08:00
    《黑客与画家》里说的那个是朴素贝叶斯方法,博文在这:

    http://www.paulgraham.com/spam.html

    可以看下《集体智慧编程》,里面有一章讲这个的。
    Huntor
        7
    Huntor  
    OP
      &nbs;2012-03-09 19:56:00 +08:00
    感谢楼上各位给予的帮助,《黑客与画家》这本书虽然一直有听过,但是没怎么看过,正好借此机会,仔细研究下这本书~
    Ricepig
        8
    Ricepig  
       2012-03-09 20:30:14 +08:00
    用贝叶斯,或者SVM吧

    其实感觉很多垃圾邮件过滤的技术可以直接用
    hq5261984
        9
    hq5261984  
       2012-03-09 21:38:34 +08:00
    这个往深了说就是语义网络。

    单靠关键字肯定不行。涉及到人工智能N复杂,你们导师出这个题目,他自己都不懂,国内没几个能搞明白的。随便写写忽悠他吧。
    Huntor
        10
    Huntor  
    OP
       2012-03-11 00:45:55 +08:00
    语义网络?人工智能?介个表示压力越来越大。。。记得某童鞋说过:咱搞技术的,写论文就算要忽悠,也要忽悠出技术含量~
    run2
        11
    run2  
       2012-03-11 01:21:22 +08:00 via iPad
    按分数来怎么样广告多20分(粗略的算法)flash/控件多20 全是关键词,没有完整的文章80 没有原创50。只要分数高于60就算垃圾网站了
    tttwww18
        12
    tttwww18  
       2012-03-11 01:29:50 +08:00
    一两句说不清,自己看论文学吧
    http://ilpubs.stanford.edu:8090/646/1/2004-25.pdf

    https://wiki.engr.illinois.edu/download/attachments/188588798/WebSpamSurvey.pdf?version=1&modificatiOnDate=1318004145000

    涉及一些基本思想和个别算法,希望能给你思路
    (英文看得蛋疼就看中文吧,给个中文博客给你
    http://hi.baidu.com/shichunqi/home)
    argentum
        13
    argentum  
       2012-03-11 12:28:02 +08:00
    lz毕设咋弄这么学术的、、、我见过的有计算机重点学科的985也有人在做图书管理系统啊、、、
    freefcw
        14
    freefcw  
       2012-03-11 12:48:24 +08:00
    这个题目还真是噱头大。。。如果真要说做的话,估计光垃圾网页的检测这个课题我估计就可以做一堆博士出来了= =

    但是我真的不知道垃圾网页的检测和垂直搜索有啥关系。。。怎么扯上来
    argentum
        15
    argentum  
       2012-03-11 12:57:40 +08:00
    @freefcw

    这么巧啊,第一天来这里就看到见过的id、、、这么多年没换过头像啊、、、
    freefcw
        16
    freefcw  
       2012-03-11 14:51:05 +08:00
    @argentum 啊。。。,嗯,好像从06年还是05年开始就没换过头像
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5001 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 09:39 PVG 17:39 LAX 02:39 JFK 05:39
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86