powered by simpleCommunicator - 2.0.30     © 2024 Programmizd 02
Map
Форумы / Java [игнор отключен] [закрыт для гостей] / Поиск по текстовым документам на Java
37 сообщений из 37, показаны все 2 страниц
Поиск по текстовым документам на Java
    #39904379
GrossmasteR
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Уважаемые форумчане, здравствуйте. Нужна ваша помощь.

Необходимо получить n-ое количество текстовых файлов, сохранить их в папке. И произвести поиск по всем загруженным файлам: выбирается каждая строчка из каждого документа, в котором встречается искомая фраза и формируется итоговый документ, в котором: все найденные строки с указанием документа, в котором они найдены.

Как это сделать используя инструментарий java 8, пожалуйста, подскажите
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904382
забыл ник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
загнать в lucene или elasticsearch и вызвать поиск
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904390
GrossmasteR
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
забыл ник, надо сделать с помощью, будем говорить, стандартных средств Java. Это учебная задача. Files, Path, или как-то так
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904406
PetroNotC Sharp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GrossmasteR,
Делай. В чем вопрос то?
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904598
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GrossmasteR
Уважаемые форумчане, здравствуйте. Нужна ваша помощь.

Необходимо получить n-ое количество текстовых файлов, сохранить их в папке. И произвести поиск по всем загруженным файлам: выбирается каждая строчка из каждого документа, в котором встречается искомая фраза и формируется итоговый документ, в котором: все найденные строки с указанием документа, в котором они найдены.

Как это сделать используя инструментарий java 8, пожалуйста, подскажите

Скорее всего от тебя хотят увидеть демонстрацию знаний Java Streams.

Поищи в интернетах по ключевым словам #Java #Streams #CountWords

Если ты сам ничего не хочешь писать или хочешь сыграть в хитрца чтоб за тебя написали - то добро пожаловать в Работу .
Там за твои деньги тебе помогут.
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904619
PetroNotC Sharp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,
В принципе наверно можно по старинке циклом перебрать. Как говорят прогеры - "в лоб“.
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904624
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
На самом деле оно так и будет. Просто глубокое развитие этой идеи - это ForkJoin, MapReduce e.t.c.

Можно начать с тупого цикла и закончить Fuzzy Text Search и текстовыми индексами.

В целом это на 80% задаче на на сделать а "на поговорить".
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904637
PetroNotC Sharp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,
Да. Трудолюбивым - делать. Остальным, в работа.
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904688
apb12
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
сначала нужо понять что автор понимает под строчкой - в его задании нужно выделить в отдельный файл все строки с искомой фразой
что такое строчка- это может быть и набор символов межу двумя точками и строка в документе напрмер А4
от этого сначала нужно отталкиваться .
задание не очень понятное
одно дело найти количество повторений искомой фразы в документе и вывести
док 1 - совпадений 20
или же к искмой фразе нужно приклеить еще что то -в данном случае строку в которой она лежит
а чего не абзац?
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904697
PetroNotC Sharp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
apb12
что такое строчка- это может быть и набор символов межу двумя точками и строка в документе напрмер А4
))
У прогеров это символы между \n
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904719
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Еще два варианта.

Код: java
1.
\n\r



Код: java
1.
\r\n
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904747
PetroNotC Sharp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Еще два варианта.

Код: java
1.
\n\r




Код: java
1.
\r\n

тут вам не С++
))) LOL
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904748
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
При чем тут С++? Я говорю просто о стандартах на текстовые файлы.
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904749
iOracleDev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GrossmasteR
забыл ник, надо сделать с помощью, будем говорить, стандартных средств Java. Это учебная задача. Files, Path, или как-то так

Вам нужно открыть файл, построчно его прочитать проверяя каждую строку на вхождение в нее искомой строки и если есть вхождение, то записать в результирующий файл имя файла и саму строку. Берите документацию, ищите примеры и делайте, задача на работу с файлами и строками.
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904754
iOracleDev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
PetroNotC Sharp
тут вам не С++
))) LOL

В разных операционных системах кодировка конца строки и перевода на следующую строку отличаются и язык здесь не при чем.
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904769
PetroNotC Sharp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
iOracleDev,
Мы о своём. Он знает. Там до сих пор проблема с этим. И топики есть.
Тута нет обсуждений по поводу мак это или intel.
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904844
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
В самом задании уже было противоречие. Текстовый файл и "документ" это очень разные вещи.
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904916
Фотография Сергей Лалов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GrossmasteR,

1)Откуда ,как и куда поступают документы для переборки?(Или уже лежат в папке определенной)
2)Список документов в каком формате? (txt,csv,docx)
3) в каком итоговом документе /формате выводится фраза?

Дело пахнет парой циклов и Scanner)
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904920
PetroNotC Sharp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Сергей Лалов,
Аффтар уже убежал.
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904922
Nixic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Предлагаю подобные абстрактные темы игнорить в следующий раз.
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39904946
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Сергей Лалов, дело пахнет фишингом. Автор закинул один вопрос в 20 форумов и сидит ловит рыбку.
Вряд-ли от него будет диалог. Студенты.... Уже наверное и на тостере и на ответах отметился.
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39905213
Фотография crutchmaster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,

Есть один вариант - \n. Всё остальное - старые костыли для матричников и их место в помойке.

Срач объявляю закрытым открытым!
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39905214
Фотография crutchmaster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Nixic,

Предлагаю не терять время и сразу переходить к холивару \n vs \n\r (\r\n)
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39905232
Basil A. Sidorov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
crutchmaster
Есть один вариант - \n. Всё остальное - старые костыли для матричников и их место в помойке.
Отредактировано мною.
На будущее рекомендую ознакомиться с "каноническим завершением строки" в прикладных интернет-протоколах.
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39905236
Фотография crutchmaster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Basil A. Sidorov
каноническим завершением строки

И что, что там /n/r? /r не нужен. Он лишний. Он избыточен. Это архоизм. Если его убрать выкинуть суть не поменяется. Да и сам http - не очень хорошо спроектированный протокол.
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39905239
Basil A. Sidorov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
crutchmaster, "Будьте педантичны в том вы отправляете и толерантны к тому, что вы получаете".
Этот несложный принцип обеспечивает более-менее устойчивую работу избыточного "архОизма".

P.S.
"Плохо спроектирован" - отдельная и уже совсем не смешная тенденция.
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39905240
Фотография crutchmaster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Basil A. Sidorov
"Будьте педантичны в том вы отправляете и толерантны к тому, что вы получаете".
Этот несложный принцип обеспечивает более-менее устойчивую работу избыточного "архОизма".

Да с этим проблем нет. Просто страдает чувство прекрасного же!
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39905274
Basil A. Sidorov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
crutchmaster
Просто страдает чувство прекрасного же!
Не в том месте оно у вас страдает: \n - архаичный пережиток эпохи телетайпов.
Эталонный символ завершения строки - ASCII-ZERO. Стандартная библиотека C и сам язык меня поддержат.
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39905283
Фотография crutchmaster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Basil A. Sidorov
Эталонный символ завершения строки - ASCII-ZERO

Это другое. После ascii-zero уже ничего не вставишь и портянку на n строк никуда не передашь.
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39905323
PetroNotC Sharp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
crutchmaster,
Сумел таки ты зацепить сишников))
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39905327
Basil A. Sidorov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
crutchmaster
После ascii-zero уже ничего не вставишь и портянку на n строк никуда не передашь.
Нет, это именно архаика времён телетайпов.

P.S.
Портянка на n-строк должна читаться до EOF.
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39905404
Фотография crutchmaster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Basil A. Sidorov
Нет, это именно архаика времён телетайпов.

Ты не можешь всунуть в char* кучу \0. Так всё поломается и придётся везде за ним таскать длину. А без \r можно легко обойтись.
Basil A. Sidorov
Портянка на n-строк должна читаться до EOF.

И как её потом обрабатывать?
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39905478
Basil A. Sidorov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
crutchmaster
И как её потом обрабатывать?
Точно так же, как и сейчас обрабатываются буферы: есть массив байт, есть информация о том, где в этом массиве начинаются и заканчиваются полезные данные.
Что именно будет разделителем внутри полезной нагрузки - дело десятое. Именно поэтому выбор разделителя не имеет такой важности, которую вы пытаетесь ему приписать.
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39905907
Фотография crutchmaster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Basil A. Sidorov
Точно так же, как и сейчас обрабатываются буферы: есть массив байт, есть информация о том, где в этом массиве начинаются и заканчиваются полезные данные.

Так заканчиваются они на /0
авторЧто именно будет разделителем внутри полезной нагрузки - дело десятое.
Ну понятно, что можно сделать /r или вообще /t вместо /n, но не /0.
Basil A. Sidorov
Именно поэтому выбор разделителя не имеет такой важности, которую вы пытаетесь ему приписать.

Имеет хотя бы смысл делать его однобайтовым для начала.
такой важности
Это вопрос чрезвычайной важности! Я бы даже сказал фундаментальный вопрос!
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39905915
Basil A. Sidorov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
crutchmaster
Basil A. Sidorov
Точно так же, как и сейчас обрабатываются буферы: есть массив байт, есть информация о том, где в этом массиве начинаются и заканчиваются полезные данные.
Так заканчиваются они на /0
"Большая ошибка" (ц) "Последний герой боевика".
Как (большой) поток данных будет "разложен" по буферу - зависит от разных факторов. При создании надёжного ПО всё эти факторы следует учесть.
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39905943
Фотография crutchmaster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Basil A. Sidorov
Как (большой) поток данных будет "разложен" по буферу - зависит от разных факторов.

Вот. А после разбора как это всё будет выглядеть? Для char* \n не важен. В контексте си весь текст - это одна строка. А если там будет куча \0 - это проблемы. Разгребать текст в char**? А кому это надо?
...
Рейтинг: 0 / 0
Поиск по текстовым документам на Java
    #39906023
Basil A. Sidorov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
crutchmaster
Вот. А после разбора как это всё будет выглядеть?
Построчный разбор будет забирать из буфера по одной строке за раз, при необходимости - склеивая кусок "предыдущего содержимого" и "остаток строки".
Дополнительные проблемы возникнут тогда, когда размер строки (кратно) превысит размер буфера.
Вид маркера конца строки - самая маленькая из всех бед, которые могут возникнуть при работе с (байтовым) буфером. Это вообще не проблема.
...
Рейтинг: 0 / 0
37 сообщений из 37, показаны все 2 страниц
Форумы / Java [игнор отключен] [закрыт для гостей] / Поиск по текстовым документам на Java
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]