Бұл мақала алдыңғы мақаланың қосымшасы болады (//pcpro100.info/skanirovanie-teksta/), толығырақ мәтінді тікелей танудың мәні ашылады.
Көптеген пайдаланушылар толық түсінбейтін мәннен бастайық.
Кітапты, газетті, журналды және т.б. сканерлегеннен кейін сіз арнайы бағдарламада тануыңыз керек суреттер жиынтығын аласыз (мысалы, графикалық файлдар, мәтіндік файлдар емес) (бұл үшін ең жақсысы ABBYY FineReader). Тану - бұл дәл сол, графикадан мәтін алу процесі және дәл осы процесс.
Менің мысалда осы сайттың скриншотын алып, одан мәтін алуға тырысамын.
1) Файлды ашу
Біз тануды жоспарлаған суретті (терді) ашыңыз.
Айтпақшы, мұнда сіз тек кескін форматтарын ғана емес, сонымен қатар DJVU және PDF файлдарын да аша алатындығыңызды айта кету керек. Бұл желіде, әдетте, осы форматта таратылатын кітапты тез тануға мүмкіндік береді.
2) Өңдеу
Авто танумен бірден келісу мағынасы жоқ. Егер сізде тек мәтіні бар кітап болса, онда суреттер мен тақтайшалар жоқ, сонымен қатар ол өте жақсы сапада сканерден өткізілсе, сіз де аласыз. Басқа жағдайларда барлық аймақтарды қолмен жасаған дұрыс.
Әдетте, алдымен парақтан қажет емес аймақтарды алып тастау керек. Мұны істеу үшін панельдегі өңдеу түймесін басыңыз.
Содан кейін сіз ұзақ жұмыс істейтін аймақты ғана қалдыруыңыз керек. Ол үшін қажет емес шекараларды кесуге арналған құрал бар. Оң жақ бағанда режимді таңдаңыз дақыл.
Әрі қарай, қалдыру керек аймақты таңдаңыз. Төмендегі суретте қызыл түспен ерекшеленеді.
Айтпақшы, егер сізде бірнеше суреттер ашық болса, онда кесу барлық суреттерге бірден қолданыла алады! Әрқайсысын жеке-жеке кесіп алмау ыңғайлы. Назар аударыңыз, панельдің төменгі жағында тағы бір керемет құрал бар -өшіргіш. Оны қолдана отырып, суреттегі қажетсіз дақтарды, бет нөмірлерін, дақтарды, қажетсіз арнайы белгілерді және жеке бөлімдерді өшіруге болады.
Шеттерін кесу үшін басқаннан кейін, бастапқы сурет өзгеруі керек: тек жұмыс алаңы қалады.
Содан кейін сіз сурет редакторынан шыға аласыз.
3) аймақтарды бөлектеу
Ашық кескіннің үстіңгі тақтасында сканерлеу аймағын анықтайтын кішкентай тіктөртбұрыштар орналасқан. Олардың кейбіреулері бар, қысқаша олардың ең кең таралғанын қарастырыңыз.
Сурет - бағдарлама бұл аймақты танымайды, жай көрсетілген тіктөртбұрышты көшіріп, оны танылған құжатқа қояды.
Мәтін - бағдарламаның негізгі бағыты және суреттен мәтін алуға тырысады. Бұл аймақты біз өзіміздің мысалда бөліп көрсетеміз.
Іріктеуден кейін аймақ ашық жасыл түске боялған. Содан кейін сіз келесі қадамға өтуіңізге болады.
4) Мәтінді тану
Барлық аймақтар анықталғаннан кейін мәзірден тану пәрменін нұқыңыз. Бақытымызға орай, бұл қадамнан басқа ештеңе қажет емес.
Тану уақыты құжаттағы беттердің санына және компьютердің қуатына байланысты болады.
Орташа алғанда, жақсы сапада бір толық парақ 10-20 секундты алады. компьютердің орташа қуаты (бүгінгі стандарт бойынша).
5) Қателерді тексеру
Суреттердің бастапқы сапасы қандай болмасын, қателер танудан кейін әрқашан қалады. Сонымен, осы уақытқа дейін ешбір бағдарлама адам жұмысын толығымен жоққа шығара алмады.
Тексеру параметрін нұқыңыз, содан кейін ABBYY FineReader сізге құжаттардың бұзылған жерлерін бір-бірден көрсете бастайды. Сіздің тапсырмаңыз, түпнұсқа кескінді салыстыра отырып (айтпақшы, бұл жерде ол сізді үлкейтілген нұсқада көрсетеді) тану опциясымен - растамада жауап беріңіз немесе түзетіңіз және бекітіңіз. Содан кейін бағдарлама келесі қиын жерге және т.с.с. бүкіл құжат тексерілгенге дейін жүреді.
Жалпы, бұл процесс ұзақ және скучно болуы мүмкін ...
6) үнемдеу
ABBYY FineReader жұмысыңызды үнемдеудің бірнеше нұсқасын ұсынады. Ең жиі қолданылатыны - «дәл көшірме». I.e. Бүкіл құжат, ондағы мәтін де, дереккөзде де форматталады, оны Word-ке жіберудің ыңғайлы нұсқасы. Сондықтан біз бұл мысалда жасадық.
Осыдан кейін сіз танылған мәтінді таныс Word құжатында көресіз. Одан әрі не істеу керектігін түсінудің қажеті жоқ деп ойлаймын ...
Осылайша, суретті қарапайым мәтінге қалай аударудың нақты мысалын жасадық. Бұл процесс әрдайым қарапайым және жылдам емес.
Қалай болғанда да, бәрі суреттің бастапқы сапасына, сіздің тәжірибеңіз бен компьютеріңіздің жылдамдығына байланысты болады.
Жақсы жұмыс істе!