EDI许可证需要的网站怎么做设计工作室名字创意好听-Seo优化-葫芦岛市网站建设公司

EDI许可证需要的网站怎么做,设计工作室名字创意好听,网易官网建立个人网站,开发前端后端大家好#xff01;我是CSDN的Python新手博主#xff5e; 前三篇分享了文件整理、个人记账工具和新手项目推荐#xff0c;很多小伙伴说“想练点能解决实际需求、还能接触新知识点的项目”。今天就带来一个超实用的新手实战——批量OCR图片文字提取工具#xff01; 日常工作…大家好我是CSDN的Python新手博主前三篇分享了文件整理、个人记账工具和新手项目推荐很多小伙伴说“想练点能解决实际需求、还能接触新知识点的项目”。今天就带来一个超实用的新手实战——批量OCR图片文字提取工具日常工作学习中经常会遇到“截图里的文字想复制”“扫描件的内容要编辑”的场景手动输入太麻烦。这个工具能自动识别图片中的中文/英文文字支持单张/批量提取还能保存到文档里全程用基础语法简单第三方库实现新手也能快速上手一、本次学习目标掌握第三方库的安装与使用PILpytesseract学会批量处理文件遍历文件夹图片理解OCR识别的基础流程巩固文件读写、异常处理的核心知识点。二、前期准备安装依赖库与OCR引擎这个项目需要两个核心工具图片处理库PIL和OCR识别库pytesseract步骤如下新手跟着做别慌1. 安装Python库打开命令行Windows按WinR输入cmdMac打开终端输入以下命令安装# 安装图片处理库PIL的升级版用于读取图片pipinstallpillow -i https://pypi.tuna.tsinghua.edu.cn/simple# 安装OCR识别库调用Tesseract引擎pipinstallpytesseract -i https://pypi.tuna.tsinghua.edu.cn/simple用清华源-i 后面的链接下载更快避免超时失败。2. 安装Tesseract OCR引擎关键pytesseract只是“桥梁”真正实现识别的是Tesseract引擎必须单独安装下载引擎去Tesseract官网下载安装包Windows选64位版本如tesseract-ocr-w64-setup-v5.3.0.exe安装注意勾选“Additional language data”中的“Chinese (Simplified)”中文识别包否则无法识别中文记住安装路径比如默认的C:\Program Files\Tesseract-OCR后续要配置环境变量。配置环境变量Windows右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→编辑→新建粘贴Tesseract的安装路径如C:\Program Files\Tesseract-OCR配置完成后关闭命令行重新打开环境变量生效。三、实战实现批量OCR文字提取工具1. 核心需求支持识别单张图片JPG/PNG格式支持批量识别文件夹内所有图片识别结果自动保存到txt文档按“图片名-识别结果”格式存储。2. 完整代码可直接复制运行importpytesseractfromPILimportImageimportos# 配置Tesseract引擎路径如果环境变量配置成功这行可以注释掉失败则手动填写安装路径# pytesseract.pytesseract.tesseract_cmd rC:\Program Files\Tesseract-OCR\tesseract.exedefocr_single_image(image_path,output_txt):识别单张图片的文字并写入txttry:# 打开图片imgImage.open(image_path)# 识别文字langchi_sim表示识别中文langeng识别英文默认中英文混合textpytesseract.image_to_string(img,langchi_sim)# 获取图片文件名image_nameos.path.basename(image_path)# 写入txt文件追加模式withopen(output_txt,a,encodingutf-8)asf:f.write(f{image_name}的识别结果 \n)f.write(text.strip()\n\n)print(f✅{image_name}识别完成)exceptExceptionase:print(f❌{image_path}识别失败{str(e)})defocr_batch_images(folder_path,output_txt):批量识别文件夹内的图片# 先清空之前的识别结果可选根据需求调整ifos.path.exists(output_txt):os.remove(output_txt)# 遍历文件夹内所有文件forfile_nameinos.listdir(folder_path):# 筛选图片格式JPG/PNGiffile_name.lower().endswith((.jpg,.jpeg,.png)):file_pathos.path.join(folder_path,file_name)ocr_single_image(file_path,output_txt)print(f\n 批量识别完成结果已保存到{output_txt})if__name____main__:# 请根据自己的需求修改以下路径# 选项1批量识别文件夹推荐target_folderrC:\Users\你的用户名\Desktop\需要识别的图片# 图片文件夹路径output_fileOCR识别结果.txt# 输出的txt文件名# 选项2识别单张图片注释上面两行取消下面两行注释# single_image_path rC:\Users\你的用户名\Desktop\测试图片.png# ocr_single_image(single_image_path, 单张图片识别结果.txt)# 执行批量识别ocr_batch_images(target_folder,output_file)3. 关键代码拆解新手必看1库的作用PIL.Image用于打开和处理图片支持JPG、PNG等常见格式pytesseract调用Tesseract引擎将图片中的文字转为字符串os遍历文件夹、处理文件路径和之前的文件整理工具用法一致。2核心函数解析ocr_single_image(image_path, output_txt)处理单张图片Image.open(image_path)打开目标图片pytesseract.image_to_string(img, langchi_sim)核心识别函数langchi_sim指定中文识别英文用langeng混合识别可去掉lang参数try-except捕获异常比如图片损坏、路径错误避免程序崩溃新手要养成用异常处理的习惯。ocr_batch_images(folder_path, output_txt)批量处理os.listdir(folder_path)遍历文件夹内所有文件file_name.lower().endswith((.jpg, .png))筛选图片格式避免处理非图片文件先删除旧的识别结果txt再用追加模式写入新结果保证文件整洁。3路径配置说明图片文件夹路径Windows系统路径用r路径 raw字符串避免反斜杠转义比如rC:\Users\张三\Desktop\图片如果环境变量配置失败取消pytesseract.tesseract_cmd的注释填入你的Tesseract安装路径比如C:\Program Files\Tesseract-OCR\tesseract.exe。四、运行效果演示准备图片在桌面创建“需要识别的图片”文件夹放入几张带中文的截图/图片修改代码中的target_folder路径运行脚本运行完成后会在脚本所在文件夹生成“OCR识别结果.txt”内容如下工作截图.png 的识别结果 Python新手实战项目OCR文字提取工具核心功能批量识别图片中的中文/英文文字适合场景截图文字提取、扫描件编辑、文档电子化笔记图片.png 的识别结果今日学习计划 1. 掌握PIL库的图片读取方法 2. 理解OCR识别的基本流程 3. 完成批量处理功能优化五、新手避坑小贴士引擎安装问题一定要勾选“Chinese (Simplified)”否则中文识别是乱码环境变量配置后必须关闭命令行重新打开否则pytesseract找不到引擎。图片识别效果图片越清晰、文字越大识别准确率越高模糊图片建议先裁剪/放大避免图片中有复杂背景比如花纹、多色底纹尽量用纯色背景的图片。路径错误文件夹路径一定要写对比如用户名不能写错比如“张三”写成“李四”路径中的中文不要有特殊字符比如emoji、符号否则会报错。库安装失败用清华源下载命令后加-i https://pypi.tuna.tsinghua.edu.cn/simpleWindows系统如果提示“缺少dll文件”可以百度搜索对应的dll文件放到C:\Windows\System32文件夹下。六、功能扩展新手进阶方向如果想提升工具实用性可以尝试添加这些功能后续文章会详细讲支持PDF文件的文字提取需要安装pdf2image库将PDF转为图片再识别识别结果按图片顺序编号支持关键词搜索生成Excel文件按“图片名、识别结果、识别时间”分类存储增加GUI界面用tkinter库不用修改代码点击按钮选择文件夹即可识别。七、总结与后续规划这篇文章通过“批量OCR工具”带大家接触了Python第三方库的使用、OCR识别、批量文件处理等实用技能。新手学习的关键还是“边做边查”遇到问题先百度比如“pytesseract中文乱码”大部分问题都有成熟的解决方案。接下来的系列文章我会继续分享新手友好的实战项目比如PDF批量处理工具合并、拆分、转图片简易GUI桌面工具用tkinter实现可视化操作自动化截图OCR识别一键提取屏幕文字。如果这篇文章对你有帮助欢迎点赞收藏关注也可以在评论区分享你的使用体验或遇到的问题比如“引擎安装失败”“识别准确率低”我会一一解答我们一起从新手慢慢进阶

EDI许可证需要的网站怎么做设计工作室名字创意好听

电子商务网站建设与管理考试例题网站开发技术代码

网站 301哪个网站能在家做兼职

手机怎么做网站别人的网站是怎么找到的

坪山商城网站建设哪家便宜商标怎么设计

手机网站与电脑网站的区别做网站一个月赚多少钱

扬州网站建设公元国际购物网站如何推广