![AI源码解读:数字图像处理案例(Python版)](https://wfqqreader-1252317822.image.myqcloud.com/cover/118/44510118/b_44510118.jpg)
上QQ阅读APP看书,第一时间看更新
AI源码解读.数字图像处理案例:Python版
4.3.4 文本数据翻译与爬虫
本部分包括文本数据翻译和爬虫。
1.文本数据翻译
数据集中类别名称为英文,需要将其转换为中文,在翻译过程中使用百度翻译API。
![](https://epubservercos.yuewen.com/631FC2/23721638301028906/epubprivate/OEBPS/Images/Figure-P135_24652.jpg?sign=1738863011-UAbwpRApjgA3YHZBRnwkQpd4HKAKmEp8-0-bdbafae9118f4de4aa9044f95095a030)
2.爬虫
在实现输出狗狗百科和论坛网页的过程中,使用beautifulsoup和lxml的网络爬虫方法,将狗狗名称和对应的百科网站url、论坛网站url格式化存储在dogurls2.csv文件中,参考地址为http://www.boqii.com/pet-all/dog/?p=1。
![](https://epubservercos.yuewen.com/631FC2/23721638301028906/epubprivate/OEBPS/Images/Figure-P136_24656.jpg?sign=1738863011-X6xvj8b5pmLWQClDMB3Aox6iH6c43Ig6-0-b49396a63ec47d56bdfda75fa509f808)
通过Pandas库中函数data.head()查看dogurls2.csv前5行,信息输出如图4-5所示。
![](https://epubservercos.yuewen.com/631FC2/23721638301028906/epubprivate/OEBPS/Images/Figure-P136_8629.jpg?sign=1738863011-hlr2JhWLcv3p7MILXYtfItXPJbf532Ao-0-d1a59763505b4e3e29ba668a212d7c3c)
图4-5 dogurls2.csv文件前5行信息