powered by simpleCommunicator - 2.0.51     © 2025 Programmizd 02
Форумы / Microsoft SQL Server [игнор отключен] [закрыт для гостей] / Достать текст из изображений
18 сообщений из 18, страница 1 из 1
Достать текст из изображений
    #40077550
Фотография Roust_m
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Добрый день,

У меня есть около тысячи отсканированных сертификатов. Я создал скрипт, который затащил эти картинки в базу с поддержкой Filestream.

Мне нужно из них вытащить текст (дата выдачи, дата истечения срока действия и т.д.) Как проще это сделать при минимальных навыках программирования (немного могу писать на C#, гораздо лучше знаю PowerShell).

Спасибо.
...
Рейтинг: 0 / 0
Достать текст из изображений
    #40077553
Massa52
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Достать текст из изображений
    #40077600
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Roust_m,

Если это одноразовая операция (и вы таким ранее не занимались), то глазами и руками будет быстрее
...
Рейтинг: 0 / 0
Достать текст из изображений
    #40077645
Alexander Us
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Roust_m,

Скопируйте/переделайте этот пример
Это C#

-просто
-быстро
-бесплатно
...
Рейтинг: 0 / 0
Достать текст из изображений
    #40082263
Фотография Roust_m
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander Us
Roust_m,

Скопируйте/переделайте этот пример
Это C#

-просто
-быстро
-бесплатно


Повозился прилично, но смог заставить это работать. Одна проблема, этот способ не работает для pdf файлов. Можно ли текст из pdf файлов достать средствами C# и Windows 10?
...
Рейтинг: 0 / 0
Достать текст из изображений
    #40082289
uaggster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Roust_m, попробуйте распечатывать на какой-нибудь виртуальный bmp принтер, а потом - ocr-ить.
Будет долго...
...
Рейтинг: 0 / 0
Достать текст из изображений
    #40082293
dvim
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Roust_m,
tesseract.net - на c# пишешь код, который проходится по изображениям, распознает их и пишет в базу данные.

Вполне решаемая задача, не раз решали такие же. Если документы одинаковые и в хорошем качестве все ОК.
Если форматы разные то может начаться цирк с конями
...
Рейтинг: 0 / 0
Достать текст из изображений
    #40082299
Massa52
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Достать текст из изображений
    #40082491
Фотография Roust_m
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
uaggster
Roust_m, попробуйте распечатывать на какой-нибудь виртуальный bmp принтер, а потом - ocr-ить.
Будет долго...


А как это сделать на C# или Powershell?

Также у меня около 15-ти тысяч почтовых сохраненных на диске почтовых сообщений в форматах:
msg
oft
eml

Они содержат приложенные файлы в разных форматах (документы и изображения). Как мне можно эти приложения сохранить в той же папке что и сообщение?
...
Рейтинг: 0 / 0
Достать текст из изображений
    #40082532
Alexander Us
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Roust_m,

Для преобразования PDF to Image есть много платных библиотек.
Но мало бесплатных, тем более корректно работающих и простых в использовании.

Из вторых мне известна одна:

Spire.PDF
Free Edition конвертирует первые три страницы.

Успехов.
...
Рейтинг: 0 / 0
Достать текст из изображений
    #40082535
Фотография crutchmaster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Roust_m,

Из pdf катринку умеет делать ghostscript .
https://www.opentechguides.com/how-to/article/tools/42/pdf-to-pnf.html
Он много что умеет делать.

А вообще, pdf - это скриптовый язык.
...
Рейтинг: 0 / 0
Достать текст из изображений
    #40082821
Фотография Roust_m
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
crutchmaster
Roust_m,

Из pdf катринку умеет делать ghostscript .
https://www.opentechguides.com/how-to/article/tools/42/pdf-to-pnf.html
Он много что умеет делать.

А вообще, pdf - это скриптовый язык.


А как мне из сохраненных почтовых сообщений выгрузить все приложения в ту же папку, где и само сообщение? Они у меня в 3-х форматах:
  • msg
  • eml
  • oft
?

А также как мне документы в разных форматах распечатать в pdf? Я пытался через PowerShell используя этот код, но печатается пустая страница:
Код: powershell
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
	$TextDocumentPath = 'C:\MyFolder\Subfolder1\Subfolder2\MyFile.doc'
	Add-Type -AssemblyName System.Drawing
        add-type -AssemblyName microsoft.VisualBasic
        add-type -AssemblyName System.Windows.Forms
	$doc = New-Object System.Drawing.Printing.PrintDocument
	$doc.DocumentName = $TextDocumentPath
	$doc.PrinterSettings = new-Object System.Drawing.Printing.PrinterSettings
	$doc.PrinterSettings.PrinterName = 'Microsoft Print to PDF'
	$doc.PrinterSettings.PrintToFile = $true
	$file=[io.fileinfo]$TextDocumentPath
	$pdf= [io.path]::Combine($file.DirectoryName, $file.BaseName) + '.pdf'
	$doc.PrinterSettings.PrintFileName = $pdf
	$doc.Print()
	$doc.Dispose()




Документы у меня в таких форматах:
  • msg
  • doc
    docx
    html
    xlsx
    txt
  • oft
  • htm
  • eml
  • bmp
    HEIC
    gif
    tif
    zip
    xls
    dot
    jfif
    psd
    rtf
    tiff
    xlsb
...
Рейтинг: 0 / 0
Достать текст из изображений
    #40082822
Фотография crutchmaster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Roust_m
Они у меня в 3-х форматах

Найти парсер формата, вынуть оттуда данные.

Roust_m
Документы у меня в таких форматах:

Roust_m
psd


Roust_m
А также как мне документы в разных форматах распечатать в pdf?

Через боль и страдания, в посте и покаянии за грехи.
...
Рейтинг: 0 / 0
Достать текст из изображений
    #40082825
Фотография Relic Hunter
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Roust_m
Я создал скрипт, который затащил эти картинки в базу с поддержкой Filestream.
Молодец. Держи нас в курсе.
...
Рейтинг: 0 / 0
Достать текст из изображений
    #40083335
Alexander Us
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Relic Hunter
Roust_m
Я создал скрипт, который затащил эти картинки в базу с поддержкой Filestream.
Молодец. Держи нас в курсе.


Если Вам что то не нравится в его постах, напишите конкретно что, обоснуйте.
А вот так, тролить человека по видом иронии - совершенно неуместно.
...
Рейтинг: 0 / 0
Достать текст из изображений
    #40083475
Фотография Relic Hunter
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander Us
Relic Hunter
пропущено...
Молодец. Держи нас в курсе.


Если Вам что то не нравится в его постах, напишите конкретно что, обоснуйте.
А вот так, тролить человека по видом иронии - совершенно неуместно.
ТС мог выудить нужную ему инфу ДО запихивания их в скуль. Но мы не ищем легких путей. Так ведь? Теперь пусть напишет скипт выгрузки блобов в файлы. Круглое носим, квадратное катаем.
...
Рейтинг: 0 / 0
Достать текст из изображений
    #40083478
Фотография crutchmaster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Relic Hunter,

Да может там всё через жопу до него делали, а ему теперь разгребать это добро руками, печатая в пдф через ole и/или нажимая кнопки autoit'ом во всяких корелах, фотошопах и в чём ему там накидали добра.

Кстати, тс, картинки можно imagemagick'ом пачками преобразовывать. С другой стороны они могут быть произвольных размеров, так что счастливого секаса.
...
Рейтинг: 0 / 0
Достать текст из изображений
    #40083690
Фотография Roust_m
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Relic Hunter
Alexander Us
пропущено...


Если Вам что то не нравится в его постах, напишите конкретно что, обоснуйте.
А вот так, тролить человека по видом иронии - совершенно неуместно.
ТС мог выудить нужную ему инфу ДО запихивания их в скуль. Но мы не ищем легких путей. Так ведь? Теперь пусть напишет скипт выгрузки блобов в файлы. Круглое носим, квадратное катаем.


Запихивание в скуль не сложное. Сложно преобразовать все форматы в pdf. Скуль помогает оперировать файлами которые также на диске. Мне не нужно их выгружать, ибо скуль имеет полный путь к каждому файлу на диске. Я могу обратиться как к блобу в скуле, так и к файлу на диске.
...
Рейтинг: 0 / 0
18 сообщений из 18, страница 1 из 1
Форумы / Microsoft SQL Server [игнор отключен] [закрыт для гостей] / Достать текст из изображений
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]