用正则表达式怎么处理中文？

用Python 爬了一个网页下来，怎么处理网页里的中文字符啊。

中文都是\xe7\xa9\xbf\xe5\xb1\xb1\xe7\x94\xb2\xe5\x88\xb0\xe5\xba\x95\xe8\xaf\xb4\xe4\xba\x86\xe4\xbb\x80\xe4\xb9\x88\xef\xbc\x9f

看不懂！

或者有什么相关的资料书籍。谢谢！

表达式

字符

网页

18 replies 2015-05-10 12:06:15 +08:00

Cee

May 7, 2015

三 \x** 一成字

fzinfz

May 7, 2015

In [30]: s = b'\xe7\xa9\xbf\xe5\xb1\xb1\xe7\x94\xb2\xe5\x88\xb0'

In [31]: sd = s.decode('utf-8')

In [32]: sd
Out[32]: '穿山甲到'

In [33]: rs = re.search('山',sd)

In [34]: rs
Out[34]: <_sre.SRE_Match object; span=(1, 2), match='山'>

huanglk

May 7, 2015

re.compile(r'^([\x80-\xff]{3})+$')

liuhaotian

May 7, 2015

穿山甲到底说了什么？
这个是汉字的 utf-8 编码
我只会 php 就用 php，用 php 做了一个快速转换的 sample ： http://cloud.vexio.net/prog/za/utf8_decode.php
核心部分就是：urldecode(str_replace('\x','%',$input));

likuku

May 7, 2015

试试：

str.encode('utf-8')

正则没用过，但 count 和 find 都可。
py 头部加
# encoding: utf-8

str.encode('utf-8').count(u'中文')
str.encode('utf-8').find(u'中文')

python 2.7 下。

likuku

May 7, 2015

python 2.x 使用引号字串前加 u 来明确使用 utf-8 编码，否则中文不行。

buginux

May 7, 2015

书籍的话，推荐楼主去看看《正则指引》，余晟老师写的，是国内的正则书，里面有关于中文的。

imn1

May 7, 2015

先判断类型
如果是string，就按latin-1转为bytes，decode utf-8
如果本身就是bytes，直接decode就行了

imn1

May 7, 2015

>>> s='\xe7\xa9\xbf\xe5\xb1\xb1\xe7\x94\xb2\xe5\x88\xb0\xe5\xba\x95\xe8\xaf\xb4\xe4\xba\x86\xe4\xbb\x80\xe4\xb9\x88\xef\xbc\x9f'
>>> s.encode('latin-1').decode('utf-8')
'穿山甲到底说了什么？'
>>>
>>> s=b'\xe7\xa9\xbf\xe5\xb1\xb1\xe7\x94\xb2\xe5\x88\xb0\xe5\xba\x95\xe8\xaf\xb4\xe4\xba\x86\xe4\xbb\x80\xe4\xb9\x88\xef\xbc\x9f'
>>> s.decode('utf-8')
'穿山甲到底说了什么？'

第一个s是string，第二个s是bytes

错误的例子：
>>> s='\xe7\xa9\xbf\xe5\xb1\xb1\xe7\x94\xb2\xe5\x88\xb0\xe5\xba\x95\xe8\xaf\xb4\xe4\xba\x86\xe4\xbb\x80\xe4\xb9\x88\xef\xbc\x9f'
>>> s.encode('utf-8').decode('utf-8')
'±±\x94\x88°\x95è\x86\x80\x88\x9f'

用 utf-8 或者 ascii 来 encode 都是不对的

picasso250

May 8, 2015

做爬虫，请用PHP或者python3。

人生苦短。

picasso250/strong>
May 8, 2015

比如 preg_match('/我就是要处理中文/u', $html_code);

ultimate010

May 8, 2015 via iPhone

2和9正解，用好decode encode python 2正则很好弄，建议用lxml库。

commoccoom

May 8, 2015

@picasso250
python 2.7 有什么坑吗？

caomaocao

May 8, 2015

可以用这个%\w{2}){3,} 但要主要gbk编码的...

commoccoom

May 9, 2015

@ultimate010 再问一个问题：为什么 "^[0\\\-9]$" 和 "^[0\\\\-9]$" 是等价的？

ultimate010

May 10, 2015 via iPhone

@commoccoom 不等价的，用正则可以用r''
http://www.cnblogs.com/cyiner/archive/2011/09/18/2180729.html

commoccoom

May 10, 2015

@ultimate010

我用 r"^[0\\-9]$" == "^[0\\\-9]$" 返回True 用 r"^[0\\-9]$" == "^[0\\\\-9]$" 返回True
"^[0\\\-9]$" == "^[0\\\\-9]$" 同样返回 True 这样我就看不懂了。

ultimate010

May 10, 2015

In [1]: a = "^[0\\\-9]$"

In [2]: a
Out[2]: '^[0\\\\-9]$'

In [3]: b = "^[0\-9]"

In [4]: b
Out[4]: '^[0\\-9]'

In [5]: c = "^[0\\\\-9]"

In [6]: c
Out[6]: '^[0\\\\-9]'

我理解 "^[0\\\-9]$" 这种情况，前两个'\\'表示转义'\'就是原始'\',后面单独的'\'后是'-'，不是转义情况，所以理解为'\'，存储是表示成转义'\',所以输出中有'\\\\'四个'\'。
In [1]: r"^[0\\-9]$"
Out[1]: '^[0\\\\-9]$'
加了r后，就自动帮你加了转义需要的'\'。