python中ljust填充包含中英文字符串问题

it2024-10-16 96

ljust是python中用于将字符串填充至指定长度的内置函数，通常用于输出中字符串的对齐。但ljust在填充包含中英文字符串的时候，填充后的长度总是不对，导致输出无法真正对齐，其根本原因在于ljust中可能使用了len统计字符个数，而英文一般只占位1个字符，中文是要占位2个字符的，但len是不分中英文的，统一当成1个字符位统计。 >>> len('我是中文') 4 >>> len('abcd') 4 >>> str1 = '0123456789' >>> str2 = '我是中文' >>> len(str1) 10 >>> len(str2) 4 >>> str2.ljust(10); str1 '我是中文 ' '0123456789' 如上例所示，这就导致了字符串无法对齐的问题，解决的办法也随之清晰：将中文字符串计算为两个即可： #为了修复ljust的一个中英文混合使用出现的bug： #统计其中的中文个数, ljust将中英文字符通通算作一个字符， #而每个中文字符其实相当于2个英文字数，因此相当于少算了每个中文字符1个字数 import re def len_zh(data): temp = re.findall('[^a-zA-Z0-9.]+', data) count = 0 for i in temp: count += len(i) return(count) #调用ljust前先计算中文字符个数 zh = len_zh(str) #动态修正填充字符数 str.ljust(20-zh)

此方法只是暂时解决，并不是完美的解决方案：

计算中文字符是通过非运算得到的，结果并不一定可以保证准确。应该采用更好的方法统计中文字符数（相关资料）覆盖重写ljust函数应该更好。查资料之后，发现len统计字符的问题可能是和python3的utf-8编码方式有关（相关链接），utf-8编码中英文都占1字符位，gbk编码中文2字符位，英文1字符位。

转载于:https://www.cnblogs.com/tonykong/archive/2012/07/02/2572971.html

最新回复(0)