添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

在Python中对html中的unescape unicode进行解码

0 人关注

我想对这个HTML进行解压/解码

\u003Cdiv class=\u0022col-sm-6 col-md-4 col-lg-3 p-b-35 product-tile-search\u0022\u003E\n        \u003C!-- Block2 --\u003E\n        \u003Cdiv class=\u0022block2\u0022\u003E\n            \u003Cdiv class=\u0022block2-pic hov-img0\u0022\u003E\n                \u003Ca href=\u0022https:\/\/abc.com\/cotton-tiered-smocked-dress-by-coco\/p\/46285\u0022\u003E\n                    \u003Cimg src=\u0022https:\/\/objectstorage-1.oraclecloud.com\/n\/abccom\/b\/cdn\/o\/products\/400-600\/CC0000006752--1--1597741927.jpeg\u0022 alt=\u0022IMG-PRODUCT\u0022\u003E\n                \u003C\/a\u003E\n                                \u003Cdiv class=\u0022product_tag\u0022\u003E\n 

我所尝试的是

response.text.replace('"','').encode('utf-8').decode( 'unicode-escape' )

但结果却不尽如人意,因为

<a href="https:\\/\\/abc.com\\/puffed-sleeve-dress-\\/p\\/79515"\n                       class="stext-104 cl4 hov-cl1 trans-04 js-name-b2 p-b-6">\n  <\\/span>\n

URLs和HTML标签结尾的反斜线出现在output....。 对它们的解码有什么帮助吗?This site does it properly

python
python-3.x
scrapy
Windula Kularatne
Windula Kularatne
发布于 2021-07-24
1 个回答
nbk
nbk
发布于 2021-07-24
已采纳
0 人赞同

你可以在Python 3.8中使用

strubgs ='\u003Cdiv class=\u0022col-sm-6 col-md-4 col-lg-3 p-b-35 product-tile-search\u0022\u003E\n        \u003C!-- Block2 --\u003E\n        \u003Cdiv class=\u0022block2\u0022\u003E\n            \u003Cdiv class=\u0022block2-pic hov-img0\u0022\u003E\n                \u003Ca href=\u0022https:\/\/abc.com\/cotton-tiered-smocked-dress-by-coco\/p\/46285\u0022\u003E\n                    \u003Cimg src=\u0022https:\/\/objectstorage-1.oraclecloud.com\/n\/abccom\/b\/cdn\/o\/products\/400-600\/CC0000006752--1--1597741927.jpeg\u0022 alt=\u0022IMG-PRODUCT\u0022\u003E\n                \u003C\/a\u003E\n                                \u003Cdiv class=\u0022product_tag\u0022\u003E\n '
import html
print(html.unescape(strubgs))

follwing output

<div class="col-sm-6 col-md-4 col-lg-3 p-b-35 product-tile-search">
        <!-- Block2 -->
        <div class="block2">
            <div class="block2-pic hov-img0">