EDI许可证需要的网站怎么做设计工作室名字创意好听

张小明 2026/1/2 6:44:58
EDI许可证需要的网站怎么做,设计工作室名字创意好听,网易官网建立个人网站,开发前端后端大家好#xff01;我是CSDN的Python新手博主#xff5e; 前三篇分享了文件整理、个人记账工具和新手项目推荐#xff0c;很多小伙伴说“想练点能解决实际需求、还能接触新知识点的项目”。今天就带来一个超实用的新手实战——批量OCR图片文字提取工具#xff01; 日常工作…大家好我是CSDN的Python新手博主 前三篇分享了文件整理、个人记账工具和新手项目推荐很多小伙伴说“想练点能解决实际需求、还能接触新知识点的项目”。今天就带来一个超实用的新手实战——批量OCR图片文字提取工具日常工作学习中经常会遇到“截图里的文字想复制”“扫描件的内容要编辑”的场景手动输入太麻烦。这个工具能自动识别图片中的中文/英文文字支持单张/批量提取还能保存到文档里全程用基础语法简单第三方库实现新手也能快速上手一、本次学习目标掌握第三方库的安装与使用PILpytesseract学会批量处理文件遍历文件夹图片理解OCR识别的基础流程巩固文件读写、异常处理的核心知识点。二、前期准备安装依赖库与OCR引擎这个项目需要两个核心工具图片处理库PIL和OCR识别库pytesseract步骤如下新手跟着做别慌1. 安装Python库打开命令行Windows按WinR输入cmdMac打开终端输入以下命令安装# 安装图片处理库PIL的升级版用于读取图片pipinstallpillow -i https://pypi.tuna.tsinghua.edu.cn/simple# 安装OCR识别库调用Tesseract引擎pipinstallpytesseract -i https://pypi.tuna.tsinghua.edu.cn/simple用清华源-i 后面的链接下载更快避免超时失败。2. 安装Tesseract OCR引擎关键pytesseract只是“桥梁”真正实现识别的是Tesseract引擎必须单独安装下载引擎去Tesseract官网下载安装包Windows选64位版本如tesseract-ocr-w64-setup-v5.3.0.exe安装注意勾选“Additional language data”中的“Chinese (Simplified)”中文识别包否则无法识别中文记住安装路径比如默认的C:\Program Files\Tesseract-OCR后续要配置环境变量。配置环境变量Windows右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→编辑→新建粘贴Tesseract的安装路径如C:\Program Files\Tesseract-OCR配置完成后关闭命令行重新打开环境变量生效。三、实战实现批量OCR文字提取工具1. 核心需求支持识别单张图片JPG/PNG格式支持批量识别文件夹内所有图片识别结果自动保存到txt文档按“图片名-识别结果”格式存储。2. 完整代码可直接复制运行importpytesseractfromPILimportImageimportos# 配置Tesseract引擎路径如果环境变量配置成功这行可以注释掉失败则手动填写安装路径# pytesseract.pytesseract.tesseract_cmd rC:\Program Files\Tesseract-OCR\tesseract.exedefocr_single_image(image_path,output_txt):识别单张图片的文字并写入txttry:# 打开图片imgImage.open(image_path)# 识别文字langchi_sim表示识别中文langeng识别英文默认中英文混合textpytesseract.image_to_string(img,langchi_sim)# 获取图片文件名image_nameos.path.basename(image_path)# 写入txt文件追加模式withopen(output_txt,a,encodingutf-8)asf:f.write(f{image_name}的识别结果 \n)f.write(text.strip()\n\n)print(f✅{image_name}识别完成)exceptExceptionase:print(f❌{image_path}识别失败{str(e)})defocr_batch_images(folder_path,output_txt):批量识别文件夹内的图片# 先清空之前的识别结果可选根据需求调整ifos.path.exists(output_txt):os.remove(output_txt)# 遍历文件夹内所有文件forfile_nameinos.listdir(folder_path):# 筛选图片格式JPG/PNGiffile_name.lower().endswith((.jpg,.jpeg,.png)):file_pathos.path.join(folder_path,file_name)ocr_single_image(file_path,output_txt)print(f\n 批量识别完成结果已保存到{output_txt})if__name____main__:# 请根据自己的需求修改以下路径# 选项1批量识别文件夹推荐target_folderrC:\Users\你的用户名\Desktop\需要识别的图片# 图片文件夹路径output_fileOCR识别结果.txt# 输出的txt文件名# 选项2识别单张图片注释上面两行取消下面两行注释# single_image_path rC:\Users\你的用户名\Desktop\测试图片.png# ocr_single_image(single_image_path, 单张图片识别结果.txt)# 执行批量识别ocr_batch_images(target_folder,output_file)3. 关键代码拆解新手必看1库的作用PIL.Image用于打开和处理图片支持JPG、PNG等常见格式pytesseract调用Tesseract引擎将图片中的文字转为字符串os遍历文件夹、处理文件路径和之前的文件整理工具用法一致。2核心函数解析ocr_single_image(image_path, output_txt)处理单张图片Image.open(image_path)打开目标图片pytesseract.image_to_string(img, langchi_sim)核心识别函数langchi_sim指定中文识别英文用langeng混合识别可去掉lang参数try-except捕获异常比如图片损坏、路径错误避免程序崩溃新手要养成用异常处理的习惯。ocr_batch_images(folder_path, output_txt)批量处理os.listdir(folder_path)遍历文件夹内所有文件file_name.lower().endswith((.jpg, .png))筛选图片格式避免处理非图片文件先删除旧的识别结果txt再用追加模式写入新结果保证文件整洁。3路径配置说明图片文件夹路径Windows系统路径用r路径 raw字符串避免反斜杠转义比如rC:\Users\张三\Desktop\图片如果环境变量配置失败取消pytesseract.tesseract_cmd的注释填入你的Tesseract安装路径比如C:\Program Files\Tesseract-OCR\tesseract.exe。四、运行效果演示准备图片在桌面创建“需要识别的图片”文件夹放入几张带中文的截图/图片修改代码中的target_folder路径运行脚本运行完成后会在脚本所在文件夹生成“OCR识别结果.txt”内容如下 工作截图.png 的识别结果 Python新手实战项目OCR文字提取工具 核心功能批量识别图片中的中文/英文文字 适合场景截图文字提取、扫描件编辑、文档电子化 笔记图片.png 的识别结果 今日学习计划 1. 掌握PIL库的图片读取方法 2. 理解OCR识别的基本流程 3. 完成批量处理功能优化五、新手避坑小贴士引擎安装问题一定要勾选“Chinese (Simplified)”否则中文识别是乱码环境变量配置后必须关闭命令行重新打开否则pytesseract找不到引擎。图片识别效果图片越清晰、文字越大识别准确率越高模糊图片建议先裁剪/放大避免图片中有复杂背景比如花纹、多色底纹尽量用纯色背景的图片。路径错误文件夹路径一定要写对比如用户名不能写错比如“张三”写成“李四”路径中的中文不要有特殊字符比如emoji、符号否则会报错。库安装失败用清华源下载命令后加-i https://pypi.tuna.tsinghua.edu.cn/simpleWindows系统如果提示“缺少dll文件”可以百度搜索对应的dll文件放到C:\Windows\System32文件夹下。六、功能扩展新手进阶方向如果想提升工具实用性可以尝试添加这些功能后续文章会详细讲支持PDF文件的文字提取需要安装pdf2image库将PDF转为图片再识别识别结果按图片顺序编号支持关键词搜索生成Excel文件按“图片名、识别结果、识别时间”分类存储增加GUI界面用tkinter库不用修改代码点击按钮选择文件夹即可识别。七、总结与后续规划这篇文章通过“批量OCR工具”带大家接触了Python第三方库的使用、OCR识别、批量文件处理等实用技能。新手学习的关键还是“边做边查”遇到问题先百度比如“pytesseract中文乱码”大部分问题都有成熟的解决方案。接下来的系列文章我会继续分享新手友好的实战项目比如PDF批量处理工具合并、拆分、转图片简易GUI桌面工具用tkinter实现可视化操作自动化截图OCR识别一键提取屏幕文字。如果这篇文章对你有帮助欢迎点赞收藏关注也可以在评论区分享你的使用体验或遇到的问题比如“引擎安装失败”“识别准确率低”我会一一解答 我们一起从新手慢慢进阶
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

电子商务网站建设与管理考试例题网站开发技术代码

微信视频号直播弹幕抓取工具:三步实现实时数据监控的完整指南 【免费下载链接】wxlivespy 微信视频号直播间弹幕信息抓取工具 项目地址: https://gitcode.com/gh_mirrors/wx/wxlivespy 微信视频号直播弹幕抓取工具(wxlivespy)是一款能…

张小明 2025/12/28 22:37:34 网站建设

网站 301哪个网站能在家做兼职

LangFlow构建多模态AI应用的可能性探讨 在生成式 AI 爆发的今天,我们已经不再满足于让大模型“写一段文字”或“回答一个问题”。越来越多的应用场景要求系统能够理解图像、处理语音、检索知识,并基于复杂逻辑做出决策——这正是多模态智能体&#xff08…

张小明 2025/12/29 0:08:21 网站建设

手机怎么做网站别人的网站是怎么找到的

从“我喜欢什么”开始:手把手构建你的第一个内容推荐系统你有没有过这样的经历?刚注册一个新闻App,还没来得及点任何文章,首页就已经在推你感兴趣的科技资讯;或者你在某视频平台第一次搜索“Python教学”,接…

张小明 2025/12/28 14:22:05 网站建设

坪山商城网站建设哪家便宜商标怎么设计

TreeViewer终极指南:3步掌握系统发育树可视化技巧 【免费下载链接】TreeViewer Cross-platform software to draw phylogenetic trees 项目地址: https://gitcode.com/gh_mirrors/tr/TreeViewer 作为一名生物信息学研究者或进化生物学爱好者,你是…

张小明 2025/12/28 12:12:48 网站建设

手机网站与电脑网站的区别做网站一个月赚多少钱

第一章:Open-AutoGLM模型更新兼容问题概述 在持续迭代的自然语言处理生态中,Open-AutoGLM作为一款开源大语言模型框架,频繁的版本更新带来了功能增强的同时,也引入了显著的兼容性挑战。模型结构变更、配置文件格式调整以及依赖库版…

张小明 2025/12/29 1:18:39 网站建设

扬州网站建设公元国际购物网站如何推广

VMware macOS解锁终极指南:轻松搭建苹果虚拟环境 【免费下载链接】unlocker VMware Workstation macOS 项目地址: https://gitcode.com/gh_mirrors/un/unlocker 在虚拟化技术日益成熟的今天,很多开发者和技术爱好者希望在Windows或Linux系统上运…

张小明 2025/12/29 1:18:37 网站建设