用python 实现中文与html实体相互转换

一些网页会把中文转为html实体,做爬虫时就需要把html实体转换为中文,下面介绍使用python 对它们作相互转换。

用python 实现中文与html实体相互转换

html 实体

1
python & #20013;& #25991;& #21644;html & #23454;& #20307;& #30456;& #20114;& #36716;& #25442;

相互转换

把html 实体和中文互转:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
import re

s = 'python 中文和html 实体相互转换'
# s = 'python & #20013;& #25991;& #21644;html & #23454;& #20307;& #30456;& #20114;& #36716;& #25442;'
print s

def convert_callback(matches):
    char_id = matches.group(1)
    try:
        return unichr(int(char_id))
    except:
        return char_id

s2 = re.sub("&#(\d+)(;|(?=\s))", convert_callback, s)

print s2

# print s2.decode('utf-8').encode('ascii','xmlcharrefreplace')
print s2.encode('ascii','xmlcharrefreplace')

输出

1
2
3
python & #20013;& #25991;& #21644;html & #23454;& #20307;& #30456;& #20114;& #36716;& #25442;
python 中文和html 实体相互转换
python & #20013;& #25991;& #21644;html & 23454;& #20307;& #30456;& #20114;& #36716;& #25442;

本文网址: https://pylist.com/topic/65.html 转摘请注明来源

Suggested Topics

python中文链接安全转码

当一个链接里包含中文时,有些浏览器并不能正确解析,这就需要首先对中文作安全转码,这里介绍用 python中文链接安全转码,...

python 半角全角的相互转换

全角与半角在中文输入法里经常要接触到,后台在处理用户输入数据时需要对半角全角的相互转换。下面是python 实现的半角全角的相互转换功能。...

使用pyTenjin 缓存html 页面片段

pyTenjin 号称是世界上最快的模板引擎,支持在 html 文件里嵌入 python 代码,这功能其它模板引擎也有,但最重要的是 pyTenjin 模板引擎只有一个不到70K的单个文件,简单import 一下就可以使用。...

python SQLite 数据库提速经验

SQLite 特点是轻巧,依赖少,数据库就一个文件,打包即可提走。最近做一个应用,千万条数据,更新频繁,但处理方式很简单,首先直接用SQLite 处理,结果两分钟可以完成处理一次,这个还是太慢了。下面介绍 SQLite 优化提速的经验。...

Leave a Comment