如何在python中使用正则表达式提取嵌套标签?

如题,最近在提取一种结构化文本中信息遇到了诸如<x>aaaa<x>bbbb</x>cccc</x>这种样式的标签对,自己用re.findall('<x…
关注者
5
被浏览
9,466

6 个回答

楼上 2 位说的多对,不过我来点实际的。

>>> text = '<x>aaaa<x>bbbb</x>cccc</x>'
>>> result = re.search('<x>([^<>]*)</x>', text)
>>> result.group(1)
'bbbb'

只需要稍微改一下正则,然后调用 group(1) 即可