初学python 遇到正则表达式的难题 各位大虾能推荐下如何入门么
http://*259
诸如此类网址末尾是数字 怎么把它从网页里提取出来?
http://*259
诸如此类网址末尾是数字 怎么把它从网页里提取出来?

1 zhy0216 Nov 18, 2013 |
2 yxjxx Nov 18, 2013 我也刚学python不久,写过一篇笔记. http://yxjxx.me/regular-expression |
3 mengzhuo Nov 18, 2013 首先网页就不要用正则提取内容,BS4是你的好伙伴 然后提取的所有链接再用正则匹配 https?:\/\/([\d\.]+)\/ |
4 Perry Nov 19, 2013 关于入门: 入门正则可以不用书 几分钟的入门:http://net.tutsplus.com/tutorials/other/8-regular-expressions-you-should-know/ cheatsheet:http://www.addedbytes.com/cheat-sheets/regular-expressions-cheat-sheet 然后发挥你的想象力自己写并验证:http://rubular.com |
6 sandtears Nov 19, 2013 import re tmpRe = re.compile(r"^http://.*?(\d+)$") tmpNum = tmpRe.match(url).groups()[0] 此时tmp即为str类型的数字 |
7 clino Nov 19, 2013 建议装一个 kodos ,是一个正则的调试集成环境 |
8 lixm Nov 19, 2013 html页面为什么不用xml解析而要去用正则呢? |
10 C0VN Nov 19, 2013 |