`
三月沙
  • 浏览: 617990 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

python 正则表达式匹配中文

阅读更多

网上的一篇文章,做了整理,作者已无从考证,谢谢了

 

 

s="""
en: Regular expression is a powerful tool for manipulating text. 
zh: 中文 
jp: 正規表現は非常に役に立つツールテキストを操作することです。 
jp-char: あアいイうウえエおオ 
kr:정규 표현식은 매우 유용한 도구 텍스트를 조작하는 것입니다. 
puc: 。?!、,;:“ ”‘ '——……·-·《》〈〉!¥%&*# 
"""
print "原始utf8字符"
#utf8
print "--------"
print repr(s)
print "--------\n"

#非ansi
re_words=re.compile(r"[\x80-\xff]+")
m =  re_words.search(s,0)
print "非ansi字符"
print "--------"
print m
print m.group()
print "--------\n"

#unicode
s = unicode(s)
print "原始unicode字符"
print "--------"
print repr(s)
print "--------\n"

#unicode chinese
re_words = re.compile(u"[\u4e00-\u9fa5]+")
m =  re_words.search(s,0)
print "unicode 中文"
print "--------"
print m
print m.group()
print "--------\n"


#unicode korean
re_words=re.compile(u"[\uac00-\ud7ff]+")
m =  re_words.search(s,0)
print "unicode 韩文"
print "--------"
print m
print m.group()
print "--------\n"


#unicode japanese katakana
re_words=re.compile(u"[\u30a0-\u30ff]+")
m =  re_words.search(s,0)
print "unicode 日文 片假名"
print "--------"
print m
print m.group()
print "--------\n"


#unicode japanese hiragana
re_words=re.compile(u"[\u3040-\u309f]+")
m =  re_words.search(s,0)
print "unicode 日文 平假名"
print "--------"
print m
print m.group()
print "--------\n"


#unicode cjk Punctuation
re_words=re.compile(u"[\u3000-\u303f\ufb00-\ufffd]+")
m =  re_words.search(s,0)
print "unicode 标点符号"
print "--------"
print m
print m.group()
print "--------\n"


-------------------------------------------------------
原始utf8字符
--------
"\nen: Regular expression is a powerful tool for manipulating text. \nzh: \xe4\xb8\xad\xe6\x96\x87 \njp: \xe6\xad\xa3\xe8\xa6\x8f\xe8\xa1\xa8\xe7\x8f\xbe\xe3\x81\xaf\xe9\x9d\x9e\xe5\xb8\xb8\xe3\x81\xab\xe5\xbd\xb9\xe3\x81\xab\xe7\xab\x8b\xe3\x81\xa4\xe3\x83\x84\xe3\x83\xbc\xe3\x83\xab\xe3\x83\x86\xe3\x82\xad\xe3\x82\xb9\xe3\x83\x88\xe3\x82\x92\xe6\x93\x8d\xe4\xbd\x9c\xe3\x81\x99\xe3\x82\x8b\xe3\x81\x93\xe3\x81\xa8\xe3\x81\xa7\xe3\x81\x99\xe3\x80\x82 \njp-char: \xe3\x81\x82\xe3\x82\xa2\xe3\x81\x84\xe3\x82\xa4\xe3\x81\x86\xe3\x82\xa6\xe3\x81\x88\xe3\x82\xa8\xe3\x81\x8a\xe3\x82\xaa \nkr:\xec\xa0\x95\xea\xb7\x9c \xed\x91\x9c\xed\x98\x84\xec\x8b\x9d\xec\x9d\x80 \xeb\xa7\xa4\xec\x9a\xb0 \xec\x9c\xa0\xec\x9a\xa9\xed\x95\x9c \xeb\x8f\x84\xea\xb5\xac \xed\x85\x8d\xec\x8a\xa4\xed\x8a\xb8\xeb\xa5\xbc \xec\xa1\xb0\xec\x9e\x91\xed\x95\x98\xeb\x8a\x94 \xea\xb2\x83\xec\x9e\x85\xeb\x8b\x88\xeb\x8b\xa4. \npuc: \xe3\x80\x82\xef\xbc\x9f\xef\xbc\x81\xe3\x80\x81\xef\xbc\x8c\xef\xbc\x9b\xef\xbc\x9a\xe2\x80\x9c \xe2\x80\x9d\xe2\x80\x98 '\xe2\x80\x94\xe2\x80\x94\xe2\x80\xa6\xe2\x80\xa6\xc2\xb7\xef\xbc\x8d\xc2\xb7\xe3\x80\x8a\xe3\x80\x8b\xe3\x80\x88\xe3\x80\x89\xef\xbc\x81\xef\xbf\xa5\xef\xbc\x85\xef\xbc\x86\xef\xbc\x8a\xef\xbc\x83 \n"
--------

非ansi字符
--------
<_sre.SRE_Match object at 0x01A6C330>
中文
--------

原始unicode字符
--------
u"\nen: Regular expression is a powerful tool for manipulating text. \nzh: \u4e2d\u6587 \njp: \u6b63\u898f\u8868\u73fe\u306f\u975e\u5e38\u306b\u5f79\u306b\u7acb\u3064\u30c4\u30fc\u30eb\u30c6\u30ad\u30b9\u30c8\u3092\u64cd\u4f5c\u3059\u308b\u3053\u3068\u3067\u3059\u3002 \njp-char: \u3042\u30a2\u3044\u30a4\u3046\u30a6\u3048\u30a8\u304a\u30aa \nkr:\uc815\uaddc \ud45c\ud604\uc2dd\uc740 \ub9e4\uc6b0 \uc720\uc6a9\ud55c \ub3c4\uad6c \ud14d\uc2a4\ud2b8\ub97c \uc870\uc791\ud558\ub294 \uac83\uc785\ub2c8\ub2e4. \npuc: \u3002\uff1f\uff01\u3001\uff0c\uff1b\uff1a\u201c \u201d\u2018 '\u2014\u2014\u2026\u2026\xb7\uff0d\xb7\u300a\u300b\u3008\u3009\uff01\uffe5\uff05\uff06\uff0a\uff03 \n"
--------

unicode 中文
--------
<_sre.SRE_Match object at 0x014F68A8>
中文
--------

unicode 韩文
--------
<_sre.SRE_Match object at 0x01A6C330>
정규
--------

unicode 日文 片假名
--------
<_sre.SRE_Match object at 0x014F68A8>
ツールテキスト
--------

unicode 日文 平假名
--------
<_sre.SRE_Match object at 0x01A6C330>
は
--------

unicode 标点符号
--------
<_sre.SRE_Match object at 0x014F68A8>
。
--------
分享到:
评论

相关推荐

    Python正则表达式标准库使用教程.pdf

    本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式,这些主题请查看其他教程。   ...

    python正则表达式_深入浅出

    python正则表达式_深入浅出

    python正则表达式匹配不包含某几个字符的字符串方法

    今天小编就为大家分享一篇python正则表达式匹配不包含某几个字符的字符串方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

    python正则表达式.zip

    正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这 些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一 种过滤逻辑(可以用来做检索,截取或者替换...

    Python正则表达式字符.xlsx

    Python正则表达式字符.xlsx

    常用java正则表达式

    如果你曾经用过Perl或任何其他内建正则表达式支持的语言,你一定知道用正则表达式处理文本和匹配模式是多么简单。如果你不熟悉这个术语,那么“正则表达式”(Regular Expression)就是一个字符构成的串,它定义了一...

    Shell与Python正则表达式参考

    Shell与Python正则表达式参考 正则表达式(RE)是一些由字符和特殊符号组成的字符串,它们描述了这些字符和字符的某种重复方式,因此能按某种模式匹配一个有相似特征的字符串的集合,简单地说,正则表达式就是用在字符...

    Python正则表达式匹配数字和小数的方法

     以上所述是小编给大家介绍的Python正则表达式匹配数字和小数的方法,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对软件开发网网站的支持! 如果你觉得本文对你有...

    python 正则表达式大全

    详细描述了flags 编译标志位,用于修改正则表达式的匹配方式,如:是否区分大小写,多行匹配等。常用的flags有:re.I

    “正则表达式以及python re模块”演讲PPT

    PPT 讲述了正则表达式的使用方式以及如何使用python来操作正则表达式,内容简洁实用,适合平时查询,也适合PPT演讲使用~

    Python正则表达式基础

    官方翻译文档

    清华大学精品Python学习PPT课件-第5章 Python正则表达式.pptx

    清华大学精品Python学习PPT课件-第5章 Python正则表达式.pptx 清华大学精品Python学习PPT课件-第6章 Python函数.pptx 清华大学精品Python学习PPT课件-第7章 Python模块.pptx 清华大学精品Python学习PPT课件-第8章 ...

    Python实现正则表达式匹配任意的邮箱方法

    今天小编就为大家分享一篇Python实现正则表达式匹配任意的邮箱方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

    Python正则表达式匹配日期与时间的方法

    下面给大家介绍下Python正则表达式匹配日期与时间 #!/usr/bin/env python # -*- coding: utf-8 -*- __author__ = 'Randy' import re from datetime import datetime test_date = '他的生日是2016-12-12 14:34,是个...

    python3利用正则表达式匹配经纬度

    网上关于度分秒的经纬度提取我用不了,搞了好久的正则表达式,大家可以参考一下,如果有更好的方法,可以分享一下。

    Python正则表达式操作指南.doc

    Python正则表达式操作指南.doc Python正则表达式操作指南.doc

    python正则表达式学习.zip

    python正则表达式学习之后的笔记,加载的是python的re模块。

    PHP常用正则表达式汇总

    PHP常用正则表达式汇总,平时做网站经常要用正则表达式,下面是一些讲解和例子,仅供大家参考和修改使用

    Python程序设计:正则表达式检索与替换.pptx

    正则表达式是一个特殊的字符序列,它能方便的检查一个字符串是否与某种模式匹配,利用正则可以快速准确的对邮箱进行校验。 任务 邮箱验证 任务知识点 正则表达式概念与语法 常用匹配规则 正则表达式检索与替换 知识...

Global site tag (gtag.js) - Google Analytics