Интернеттегі PDF файлындағы мәтінді тану

Pin
Send
Share
Send


Кәдімгі көшіру көмегімен PDF файлынан мәтінді шығару әрқашан мүмкін емес. Көбінесе мұндай құжаттардың парақтары қағаздағы нұсқаларының мазмұнымен сканерленеді. Мұндай файлдарды толықтай өңделетін мәтіндік деректерге айналдыру үшін Оптикалық белгілерді тану (OCR) функциясы бар арнайы бағдарламалар қолданылады.

Мұндай шешімдерді жүзеге асыру өте қиын, сондықтан көп ақша қажет. Егер сіз PDF-тен мәтінді үнемі тануыңыз қажет болса, сізге сәйкес бағдарламаны сатып алу ұсынылады. Сирек жағдайларда, ұқсас функциялары бар Интернет-қызметтердің біреуін пайдалану қисынды болады.

Интернеттегі PDF мәтінін қалай тануға болады

Әрине, OCR онлайн қызметтерінің мүмкіндіктері, толыққанды жұмыс үстелінің шешімдерімен салыстырғанда анағұрлым шектеулі. Бірақ сіз сондай ресурстармен ақысыз немесе номиналды төлеммен жұмыс істей аласыз. Ең бастысы, олардың басты міндеті, атап айтқанда мәтінді тану кезінде, сәйкес веб-қосымшалары да жұмыс істей алады.

1-әдіс: ABBYY FineReader Online

Сервисті дамыту компаниясы - оптикалық құжаттарды тану саласындағы көшбасшылардың бірі. Windows және Mac үшін ABBYY FineReader - бұл PDF-ті мәтінге түрлендіруге және онымен әрі қарай жұмыс істеуге арналған керемет шешім.

Бағдарламаның веб-аналогы, әрине, функционалдылық жағынан одан төмен. Соған қарамастан, сервис 190-дан астам тілдегі сканерлер мен фотосуреттерден мәтінді тани алады. PDF файлдарын Word, Excel және т.б. форматына ауыстыру құжаттарына қолдау көрсетіледі.

ABBYY FineReader онлайн-қызметі

  1. Құралмен жұмыс жасамас бұрын, сайтта тіркелгі жасаңыз немесе Facebook, Google немесе Microsoft тіркелгісін пайдаланып кіріңіз.

    Авторизация терезесіне өту үшін түймесін басыңыз «Кіру» жоғарғы мәзір жолағында.
  2. Тіркелгеннен кейін батырманың көмегімен қажетті PDF-құжатты FineReader-ге импорттаңыз «Файлдарды жүктеу».

    Содан кейін нұқыңыз «Бет нөмірлерін таңдаңыз» мәтінді тану үшін қажетті аралықты көрсетіңіз.
  3. Әрі қарай құжаттағы тілдерді, алынған файлдың форматын таңдап, батырманы басыңыз «Тану».
  4. Өңдеуден кейін, оның мерзімі құжаттың көлеміне байланысты болады, дайын атауды басу арқылы мәтіндік деректермен жүктеп алуға болады.

    Немесе оны қол жетімді бұлт қызметтерінің біріне экспорттаңыз.

Бұл қызмет, бәлкім, кескіндер мен PDF файлдарындағы мәтінді дәл анықтау алгоритмдерімен ерекшеленеді. Өкінішке орай, оны тегін пайдалану айына бес парақпен шектеледі. Үлкен көлемді құжаттармен жұмыс істеу үшін сізге жылдық жазылымды сатып алу керек.

Алайда, егер OCR сирек қажет болса, ABBYY FineReader Online - бұл кішігірім PDF файлдарынан мәтінді шығарудың тамаша мүмкіндігі.

2-әдіс: Тегін онлайн режиміндегі OCR

Мәтінді цифрландырудың қарапайым және ыңғайлы қызметі. Тіркелусіз, ресурс сағатына 15 толық PDF парағын тануға мүмкіндік береді. Тегін онлайн OCR 46 тілдегі құжаттармен толығымен жұмыс істейді және авторизациясыз үш мәтінді экспорттау форматын қолдайды - DOCX, XLSX және TXT.

Тіркелу кезінде пайдаланушы көп парақтық құжаттарды өңдеуге мүмкіндік алады, бірақ осы парақтардың тегін саны 50 бірлікпен шектеледі.

Тегін OCR онлайн қызметі

  1. PDF-тегі мәтінді «қонақ» ретінде тану үшін, ресурста авторландырусыз сайттың басты бетіндегі тиісті форманы қолданыңыз.

    Түймесін басып қажетті құжатты таңдаңыз Файл, мәтіннің негізгі тілін, шығыс форматын көрсетіңіз, содан кейін файл жүктелуін күтіңіз және нұқыңыз Айырбастау.
  2. Цифрландыру процесінің соңында түймесін басыңыз «Шығару файлын жүктеу» дайын құжатты компьютерде мәтінмен сақтау үшін.

Уәкілетті пайдаланушылар үшін әрекеттердің реттілігі біршама ерекшеленеді.

  1. Түймесін пайдаланыңыз «Тіркеу» немесе «Кіру» сәйкесінше Free Online OCR есептік жазбасын жасау немесе оған кіру үшін мәзірдің жоғарғы жолағында.
  2. Тану тақтасында авторизациядан кейін, пернені басып тұрыңыз CTRL, ұсынылған тізімнен бастапқы құжаттың екі тілін таңдаңыз.
  3. PDF-тен мәтінді шығарудың қосымша нұсқаларын көрсетіп, нұқыңыз Файлды таңдаңыз қызметке құжатты жүктеу үшін.

    Содан кейін тануды бастау үшін нұқыңыз Айырбастау.
  4. Құжатты өңдеудің соңында сәйкес бағандағы шығыс файлының аты көрсетілген сілтемені нұқыңыз.

    Тану нәтижесі дереу компьютеріңіздің жадында сақталады.

Егер сізге кішігірім PDF-құжаттан мәтін алу қажет болса, жоғарыда аталған құралды қолдана отырып, қауіпсіз түрде жүгінуге болады. Көлемді файлдармен жұмыс істеу үшін Free Online OCR ішінен қосымша таңбаларды сатып алу керек немесе басқа шешім қолдану керек.

3-әдіс: NewOCR

DjVu және PDF сияқты кез-келген графикалық және электрондық құжаттардан мәтін алуға мүмкіндік беретін толығымен тегін OCR қызметі. Ресурс танылған файлдардың мөлшері мен санына шектеулер қоймайды, тіркеуді қажет етпейді және байланысты функциялардың кең спектрін ұсынады.

NewOCR 106 тілді қолдайды және тіпті сапасы төмен құжаттарды сканерлеуді де дұрыс өңдей алады. Файл бетінде мәтінді тану аймағын қолмен таңдауға болады.

NewOCR онлайн қызметі

  1. Сонымен, сіз қажетсіз әрекеттерді жасамай-ақ, бірден ресурспен жұмыс істей бастай аласыз.

    Дәл басты парақта сайтқа құжатты импорттауға арналған форма орналасқан. Файлды NewOCR-ге жүктеу үшін батырманы қолданыңыз «Файлды таңдау» бөлімінде «Файлды таңдаңыз». Содан кейін далада «Тану тілі (дері)» бастапқы құжаттың бір немесе бірнеше тілін көрсетіп, нұқыңыз «Жүктеу + OCR».
  2. Тану үшін өзіңіздің қалаған параметрлеріңізді орнатыңыз, мәтін шығарғыңыз келетін бетті таңдаңыз және түймесін басыңыз OCR.
  3. Парақты аздап айналдырыңыз және түймесін басыңыз «Жүктеу».

    Оны басып, ашылмалы тізімнен жүктеу үшін қажетті құжат пішімін таңдаңыз. Осыдан кейін алынған мәтіні бар дайын файл компьютеріңізге жүктеледі.

Бұл құрал ыңғайлы және өте сапалы, барлық кейіпкерлерді таниды. Алайда импортталған PDF құжатының әр бетін өңдеу дербес басталуы керек және ол бөлек файлда көрсетіледі. Сіз, әрине, тану нәтижелерін аралық сақтағышқа бірден көшіріп, оларды басқалармен біріктіре аласыз.

Дегенмен, жоғарыда сипатталған нюансты ескере отырып, NewOCR көмегімен үлкен көлемде мәтін шығару өте қиын. Кішігірім файлдарда бұл қызмет жарылысты жеңе алады.

4-әдіс: OCR.Space

Мәтінді цифрландыруға арналған қарапайым және түсінікті ресурс, ол PDF құжаттарын тануға және нәтижені TXT файлына шығаруға мүмкіндік береді. Беттер санына шектеулер қарастырылмаған. Жалғыз шектеулер: кіріс құжатының мөлшері 5 мегабайттан аспауы керек.

OCR.Space Online қызметі

  1. Құралмен жұмыс істеу үшін тіркелу қажет емес.

    Жоғарыдағы сілтемені басып, батырманы пайдаланып, PDF құжатын компьютерден веб-сайтқа жүктеңіз «Файлды таңдау» немесе желіден - сілтеме бойынша.
  2. Ашылмалы тізімде «OCR тілін таңдаңыз» Импортталған құжаттың тілін таңдаңыз.

    Содан кейін батырманы басу арқылы мәтінді тану процесін бастаңыз «OCR бастаңыз!».
  3. Файлдарды өңдеудің соңында нәтижені өрістен оқып шығыңыз OCR нәтижесі және нұқыңыз «Жүктеу»дайын TXT құжатын жүктеу үшін.

Егер сізге тек PDF-тен мәтінді шығарып алу керек болса, сонымен бірге оны түпкілікті форматтау маңызды емес, OCR.Space - бұл жақсы таңдау. Жалғыз нәрсе, құжат «біртұтас» болуы керек, өйткені қызметте бір уақытта екі немесе одан да көп тілді тану қарастырылмаған.

Сондай-ақ қараңыз: FineReader тегін аналогтары

Мақалада көрсетілген интернеттегі құралдарды бағалай отырып, ABBYY ұсынған FineReader Online OCR функциясын дәл және тиімді басқаратынын атап өткен жөн. Егер сізде мәтінді танудың максималды дәлдігі маңызды болса, бұл опцияны арнайы қарастырған дұрыс. Бірақ, мүмкін, сізге ақы төлеуге тура келеді.

Егер сізге кішігірім құжаттарды цифрлау қажет болса және сіз қызметтегі қателерді дербес түзетуге дайын болсаңыз, NewOCR, OCR.Space немесе Free Online OCR пайдалану ұсынылады.

Pin
Send
Share
Send