V2EX revotu 的所有回复 第 1 页 / 共 2 页
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX    revotu    全部回复第 1 页 / 共 2 页
回复总数  21
1  2  
2017-09-18 18:54:19 +08:00
回复了 revotu 创建的主题 程序员 想做一个垂直类的搜索引擎,大家觉得靠谱吗
怕一不小心踩了雷
2017-09-18 18:52:05 +08:00
回复了 revotu 创建的主题 程序员 想做一个垂直类的搜索引擎,大家觉得靠谱吗
还有一点很担忧 爬了别人的东西 没经过别人许可使用了 不犯法吗 有没什么相关案例之类的
2017-09-17 22:08:36 +08:00
回复了 revotu 创建的主题 程序员 想做一个垂直类的搜索引擎,大家觉得靠谱吗
@yongSir 老司机
2017-09-17 22:01:28 +08:00
回复了 revotu 创建的主题 程序员 想做一个垂直类的搜索引擎,大家觉得靠谱吗
@qiayue 朋友 我问这个问题时 想到的就是 可不可以做个程序员用的搜索引擎 也是你说的那个思路 哈哈
2017-09-11 23:16:24 +08:00
回复了 revotu 创建的主题 Python 分享下你遇到过的 Python 经典面试题
https://github.com/revotu/python-interviews (自己一点点整理的)

这里面整理的 python 面试题都很经典,非常有面试参考复习价值

而且里面的文章链接讲解每个问题都很简明清晰
@leavic
@OpenJerry
没想到还有这招 多谢提供思路
@BillowSky
@khjian

看你们这一说 好像确实没什么必要做了。。。
之前以为 目前没有什么成熟的这类关键词排名网站的
@zhengxiaowai 多谢讲解的这么细致及相关资源链接,我这种小白学到了不少。话说回复确实不支持 markdown,我之前也好奇为啥回复不支持 markdown 啊
2017-06-30 17:36:21 +08:00
回复了 revotu 创建的主题 Python Python 如何从 css 文件中提取所有 ID 名和 CLASS 名
idValues = re.findall(r'#([\w_-]+)',content)

我想知道 我这种匹配 id 的时候 怎样能排除那种后面紧跟着着分号的:

background-color: #fff;

排除了这种 我的匹配 id 应该就准确了吧
2017-06-30 15:09:22 +08:00
回复了 revotu 创建的主题 Python Python 如何从 css 文件中提取所有 ID 名和 CLASS 名
@ShindouHIkaru 注释可以不考虑 , 可是派生选择器 得考虑 所以我是宁可多了一些 没有少

还是没有准确得到我想要的, 但也很感谢了 提供的思路
2017-06-30 13:32:49 +08:00
回复了 revotu 创建的主题 Python Python 如何从 css 文件中提取所有 ID 名和 CLASS 名
@ShindouHIkaru

classValues = re.findall(r'\.([\w_-]+)',content)

idValues = re.findall(r'#([\w_-]+)',content)

但是会多出好多并不属于 ID 和 class 的值,

比如下面情况:

background-color: #fff;
-webkit-box-shadow: 0 0 2px 0 rgba(31, 31, 31, 0.07);
2017-06-30 13:10:49 +08:00
回复了 revotu 创建的主题 程序员 百度的 spider 有啥策略么
@operafans 多谢解释 哈哈 嘿嘿!!!
2017-06-30 13:05:07 +08:00
回复了 revotu 创建的主题 程序员 百度的 spider 有啥策略么
@operafans 在百度站长那提交了 sitemap,后台显示抓取也正常

但是, 为啥 site:www.revotu.com 还是只有首页?
2017-06-29 18:54:27 +08:00
回复了 donglongtu 创建的主题 Python Python 检测文件夹为空则删除
Python 文件操作相关问题 :www.revotu.com/python-file-operation-related-issues.html

```Python
try:
os.rmdir(directory)
except OSError:
pass
```
2017-06-29 09:57:30 +08:00
回复了 donglongtu 创建的主题 MySQL MySQL 如何从 datetime 类型的字段选择 date
MySQL 时间处理相关函数 : http://www.revotu.com/mysql-date-and-time-functions.html


WHERE DATE(created_at) = '2017-06-29'

或是

WHERE created_at LIKE '2017-06-29%'
2017-06-28 22:39:34 +08:00
回复了 donglongtu 创建的主题 Python Scrapy 如何得到原始的 start_url
Scrapy 爬虫常见问题总结 : http://www.revotu.com/scrapy-reptile-faq.html

利用 Request 中的 meta 参数传递信息

def start_requests(self):
start_url = 'your_scrapy_start_url'
yield Request(start_url, self.parse, meta={'start_url':start_url})

def parse(self, response):
item = YourItem()
item['start_url'] = response.meta['start_url']
yield item
2017-06-28 19:18:37 +08:00
回复了 donglongtu 创建的主题 Python Scrapy 中 xpath 用到中文报错
参见文章:[解决 Scrapy 中 xpath 用到中文报错问题][1]

## 解决方法 ##
方法一:将整个 xpath 语句转成 Unicode
```Python
links = sel.xpath(u'//i[contains(@title,"置顶")]/following-sibling::a/@href').extract()
```
方法二:xpath 语句用已转成 Unicode 的 title 变量
```Python
title = u"置顶"
links = sel.xpath('//i[contains(@title,"%s")]/following-sibling::a/@href' %(title)).extract()
```
方法三:直接用 xpath 中变量语法(`$`符号加变量名)`$title`, 传参 title 即可
```Python
links = sel.xpath('//i[contains(@title,$title)]/following-sibling::a/@href', title="置顶").extract()
```


[1]: http://www.revotu.com/solve-unicode-erros-using-xpath-in-scrapy.html
2017-06-28 09:34:21 +08:00
回复了 donglongtu 创建的主题 Python Python 获取 HTTP 请求的状态码(200,404 等)
Python 实用脚本清单 : http://www.revotu.com/python-practical-script-list.html

http 不只有 get 方法(请求头部+正文),还有 head 方法,只请求头部。


import httplib

def get_status_code(host, path="/"):
""" This function retreives the status code of a website by requesting
HEAD data from the host. This means that it only requests the headers.
If the host cannot be reached or something else goes wrong, it returns
None instead.
"""
try:
cOnn= httplib.HTTPConnection(host)
conn.request("HEAD", path)
return conn.getresponse().status
except StandardError:
return None

print get_status_code("www.v2ex.com") # prints 200
print get_status_code("www.v2ex.com", "/nonexistant") # prints 404
2017-06-27 22:48:33 +08:00
回复了 donglongtu 创建的主题 Linux Ubuntu apt-get 时出现 Segmentation faultsts... 0%错误
http://www.revotu.com/apt-get-command-ends-with-segmentation-fault.html


执行如下命令,即可解决此问题:

sudo rm -rf /var/cache/apt/*.bin
2017-06-27 17:39:33 +08:00
回复了 donglongtu 创建的主题 Python Python 统计某一文件夹下文件数量
Python 文件操作相关问题: http://www.revotu.com/python-file-operation-related-issues.html

>>> DIR = '/tmp'
>>> print len([name for name in os.listdir(DIR) if os.path.isfile(os.path.join(DIR, name))])

如统计文件夹数量,用 os.path.isdir(path)做判断语句。
1  2  
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3004 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 23ms UTC 12:55 PVG 20:55 LAX 05:55 JFK 08:55
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86