|
Достать текст из изображений
|
|||
---|---|---|---|
#18+
Добрый день, У меня есть около тысячи отсканированных сертификатов. Я создал скрипт, который затащил эти картинки в базу с поддержкой Filestream. Мне нужно из них вытащить текст (дата выдачи, дата истечения срока действия и т.д.) Как проще это сделать при минимальных навыках программирования (немного могу писать на C#, гораздо лучше знаю PowerShell). Спасибо. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.06.2021, 02:21 |
|
Достать текст из изображений
|
|||
---|---|---|---|
#18+
Roust_m, Если это одноразовая операция (и вы таким ранее не занимались), то глазами и руками будет быстрее ... |
|||
:
Нравится:
Не нравится:
|
|||
15.06.2021, 11:46 |
|
Достать текст из изображений
|
|||
---|---|---|---|
#18+
Alexander Us Повозился прилично, но смог заставить это работать. Одна проблема, этот способ не работает для pdf файлов. Можно ли текст из pdf файлов достать средствами C# и Windows 10? ... |
|||
:
Нравится:
Не нравится:
|
|||
07.07.2021, 09:06 |
|
Достать текст из изображений
|
|||
---|---|---|---|
#18+
Roust_m, попробуйте распечатывать на какой-нибудь виртуальный bmp принтер, а потом - ocr-ить. Будет долго... ... |
|||
:
Нравится:
Не нравится:
|
|||
07.07.2021, 10:56 |
|
Достать текст из изображений
|
|||
---|---|---|---|
#18+
Roust_m, tesseract.net - на c# пишешь код, который проходится по изображениям, распознает их и пишет в базу данные. Вполне решаемая задача, не раз решали такие же. Если документы одинаковые и в хорошем качестве все ОК. Если форматы разные то может начаться цирк с конями ... |
|||
:
Нравится:
Не нравится:
|
|||
07.07.2021, 11:17 |
|
Достать текст из изображений
|
|||
---|---|---|---|
#18+
Roust_m, https://static3.abbyy.com/abbyycommedia/29093/abbyy-cloud-ocr-sdk-product-brochure-en-11976.pdf ... |
|||
:
Нравится:
Не нравится:
|
|||
07.07.2021, 11:34 |
|
Достать текст из изображений
|
|||
---|---|---|---|
#18+
uaggster Roust_m, попробуйте распечатывать на какой-нибудь виртуальный bmp принтер, а потом - ocr-ить. Будет долго... А как это сделать на C# или Powershell? Также у меня около 15-ти тысяч почтовых сохраненных на диске почтовых сообщений в форматах: msg oft eml Они содержат приложенные файлы в разных форматах (документы и изображения). Как мне можно эти приложения сохранить в той же папке что и сообщение? ... |
|||
:
Нравится:
Не нравится:
|
|||
08.07.2021, 04:21 |
|
Достать текст из изображений
|
|||
---|---|---|---|
#18+
Roust_m, Для преобразования PDF to Image есть много платных библиотек. Но мало бесплатных, тем более корректно работающих и простых в использовании. Из вторых мне известна одна: Spire.PDF Free Edition конвертирует первые три страницы. Успехов. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.07.2021, 10:16 |
|
Достать текст из изображений
|
|||
---|---|---|---|
#18+
Roust_m, Из pdf катринку умеет делать ghostscript . https://www.opentechguides.com/how-to/article/tools/42/pdf-to-pnf.html Он много что умеет делать. А вообще, pdf - это скриптовый язык. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.07.2021, 10:24 |
|
Достать текст из изображений
|
|||
---|---|---|---|
#18+
crutchmaster Roust_m, Из pdf катринку умеет делать ghostscript . https://www.opentechguides.com/how-to/article/tools/42/pdf-to-pnf.html Он много что умеет делать. А вообще, pdf - это скриптовый язык. А как мне из сохраненных почтовых сообщений выгрузить все приложения в ту же папку, где и само сообщение? Они у меня в 3-х форматах:
А также как мне документы в разных форматах распечатать в pdf? Я пытался через PowerShell используя этот код, но печатается пустая страница: Код: powershell 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14.
Документы у меня в таких форматах:
docx html xlsx txt HEIC gif tif zip xls dot jfif psd rtf tiff xlsb ... |
|||
:
Нравится:
Не нравится:
|
|||
09.07.2021, 03:29 |
|
Достать текст из изображений
|
|||
---|---|---|---|
#18+
Roust_m Они у меня в 3-х форматах Найти парсер формата, вынуть оттуда данные. Roust_m Документы у меня в таких форматах: Roust_m psd Roust_m А также как мне документы в разных форматах распечатать в pdf? Через боль и страдания, в посте и покаянии за грехи. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.07.2021, 03:49 |
|
Достать текст из изображений
|
|||
---|---|---|---|
#18+
Roust_m Я создал скрипт, который затащил эти картинки в базу с поддержкой Filestream. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.07.2021, 04:29 |
|
Достать текст из изображений
|
|||
---|---|---|---|
#18+
Relic Hunter Roust_m Я создал скрипт, который затащил эти картинки в базу с поддержкой Filestream. Если Вам что то не нравится в его постах, напишите конкретно что, обоснуйте. А вот так, тролить человека по видом иронии - совершенно неуместно. ... |
|||
:
Нравится:
Не нравится:
|
|||
12.07.2021, 11:51 |
|
Достать текст из изображений
|
|||
---|---|---|---|
#18+
Alexander Us Relic Hunter пропущено... Молодец. Держи нас в курсе. Если Вам что то не нравится в его постах, напишите конкретно что, обоснуйте. А вот так, тролить человека по видом иронии - совершенно неуместно. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.07.2021, 04:28 |
|
Достать текст из изображений
|
|||
---|---|---|---|
#18+
Relic Hunter, Да может там всё через жопу до него делали, а ему теперь разгребать это добро руками, печатая в пдф через ole и/или нажимая кнопки autoit'ом во всяких корелах, фотошопах и в чём ему там накидали добра. Кстати, тс, картинки можно imagemagick'ом пачками преобразовывать. С другой стороны они могут быть произвольных размеров, так что счастливого секаса. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.07.2021, 04:42 |
|
Достать текст из изображений
|
|||
---|---|---|---|
#18+
Relic Hunter Alexander Us пропущено... Если Вам что то не нравится в его постах, напишите конкретно что, обоснуйте. А вот так, тролить человека по видом иронии - совершенно неуместно. Запихивание в скуль не сложное. Сложно преобразовать все форматы в pdf. Скуль помогает оперировать файлами которые также на диске. Мне не нужно их выгружать, ибо скуль имеет полный путь к каждому файлу на диске. Я могу обратиться как к блобу в скуле, так и к файлу на диске. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.07.2021, 02:09 |
|
|
start [/forum/topic.php?fid=46&fpage=20&tid=1684525]: |
0ms |
get settings: |
10ms |
get forum list: |
14ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
33ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
58ms |
get tp. blocked users: |
2ms |
others: | 12ms |
total: | 152ms |
0 / 0 |