python 分割中文英文混合字符串的正确方法

2019-11-10 02:43:54 Jun 18TH, 2014 by pylist

python 里的字符编码不统一导致中英文的处理有不同的结果，下面介绍中文英文混合字符串 split 的方法。

分割词

#!/usr/bin/env python
# -*- coding: utf-8 -*-

s = '我爱北京天安门python'

s2 = ''
if not isinstance(s, unicode):
    s2 = s.decode("utf-8")

slist = []
keys = []
for i in s2:
    print i
    slist.append(i)
    key = '%X' % ord(i)
    keys.append(key)

print len(slist)
print slist

print len(keys)
print keys

# =====================

s = u'我爱北京天安门python'
slist = []
keys = []
for i in s:
    if not isinstance(i, unicode):
        i = i.decode("utf-8")
    print i
    slist.append(i)
    key = '%X' % ord(i)
    keys.append(key)

print len(slist)
print slist

print len(keys)
print keys

用正则

import re
 
s = 'hi新手oh'.decode('utf-8') #举个栗子是字符串s，为了匹配下文的unicode形式，所以需要解码
p = re.compile(ur'[\u4e00-\u9fa5]') #这里是精髓，[\u4e00-\u9fa5]是匹配所有中文的正则，因为是unicode形式，所以也要转为ur
 
print p.split(s) #使用re库的split切割

稍复杂的分切

中文按字断开，英文按单词分开，数字按空格等特殊符号断开

import re

def get_word_list(s1):
    # 把句子按字分开，中文按字分，英文按单词，数字按空格
    regEx = re.compile('[\\W]*')    # 我们可以使用正则表达式来切分句子，切分的规则是除单词，数字外的任意字符串
    res = re.compile(r"([\u4e00-\u9fa5])")    #  [\u4e00-\u9fa5]中文范围

    p1 = regEx.split(s1.lower())
    str1_list = []
    for str in p1:
        if res.split(str) == None:
            str1_list.append(str)
        else:
            ret = res.split(str)
            for ch in ret:
                str1_list.append(ch)

    list_word1 = [w for w in str1_list if len(w.strip()) > 0]  # 去掉为空的字符

    return  list_word1

本文网址: https://pylist.com/topic/48.html 转摘请注明来源

Suggested Topics

用python 实现中文与html实体相互转换

一些网页会把中文转为html实体，做爬虫时就需要把`html实体`转换为中文，下面介绍使用python 对它们作相互转换。...

用python 对中文链接安全转码

当一个链接里包含中文时，有些浏览器并不能正确解析，这就需要首先对中文作安全转码，这里介绍用 python 对中文链接安全转码，...

python 终端 print 正确显示中文

当一个py 文件里有print中文时，在终端运行时，会输出乱码...

python JSON 中文 unicode 的性能问题

python2.x 版的字符编码一直是大家的诟病，字典转换成json时中文字符串变成 unicode。...

python 根据字符串随机生成颜色

遇到这么一个需求：根据用户名或用户id，随机生成一个颜色。其实就是用python 根据字符串随机生成颜色。...

python多线程监听变量

python多线程监听变量...

Python UUID 模块学习记录

uuid是一种唯一标识，在许多领域作为标识用途。python的uuid模块就是用来生成它的。...

python SQLite 数据库提速经验

SQLite 特点是轻巧，依赖少，数据库就一个文件，打包即可提走。最近做一个应用，千万条数据，更新频繁，但处理方式很简单，首先直接用SQLite 处理，结果两分钟可以完成处理一次，这个还是太慢了。下面介绍 SQLite 优化提速的经验。...

SAE+python+Tornado+pyTenjin 的完整示例

python 简单易懂，Tornado 高效易学，pyTenjin 轻巧快速，SAE 安全稳定使用门槛低。现在把他们结合在一起做了一个可运行在SAE 上的完整示例。...

在SAE Python上开启gzip的方法

开启 gzip 的作用自不必说，可以省很多流出带宽，可以省很多云豆。昨天这个博客的云豆消耗，其中流出带宽就占九成多，开启后就会只占五成多。...

Leave a Comment Cancel reply