|
|
|
Выбор СУБД и подхода для проекта(дипломная работа)
|
|||
|---|---|---|---|
|
#18+
Прошу поучаствовать, поделитесь мыслями, пожалуйста! Требуется реализовать: каталог книг, документов, статей и т.п. с поиском по тексту. Весь материал в данный момент проходит обработку и преобразуется к 3м форматам - html, doc и pdf. Материалов много - несколько гигабайт. Главный вопрос, который меня мучает, так как подобных задач мне решать еще не приходилось - как реализовать поиск по тексту и какую СУБД взять. Работать все должно онлайн. Как мне пока это представляется - сам интерфейс пользователя будет написан на html+php, хранится странички будут в файлах html. Текст из html файлов будет дополнительно занесен в бд(с какой то предварительной обработкой ради уменьшения объема) и уже по тексту в бд будет каким то образом осуществляться поиск. Насколько реально? Будет ли работать быстро? На какие моменты обратить внимание при реализации. Всем заранее большое спасибо за участие. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.04.2012, 21:57 |
|
||
|
Выбор СУБД и подхода для проекта(дипломная работа)
|
|||
|---|---|---|---|
|
#18+
mustdwindows98aie, А обязательно текстху загонять в БД? Есть отличная библиотека Lucene она портированная для многих языков программирования в т.ч. и для пихапи. Заточена на поиск данных по текстухе. В дополнение ее можно и заточить и на нечеткий поиск, что скорее всего вам рано или поздно понадобится. Работать можно с MS SQL с FILESTREAM. ИМХО. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.04.2012, 12:03 |
|
||
|
Выбор СУБД и подхода для проекта(дипломная работа)
|
|||
|---|---|---|---|
|
#18+
поисктекста внутри нескольких гигабайт файлов думаю будет работать очень медленно. я очень надеюсь, что может быть есть какие то технологии в бд ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.04.2012, 12:09 |
|
||
|
Выбор СУБД и подхода для проекта(дипломная работа)
|
|||
|---|---|---|---|
|
#18+
mustdwindows98aie, Да - а вот БД она волшебная и будет работать быстро. В ошибаетесь. Если проиндексировать файлы то поиск по ним мега шустрый будет. Да и возможностей гибкх настроек немеряно. Ве сже почитайте Люсен а потом делайте громкие заявления которые потрясут старых проефессоров буситетов. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.04.2012, 12:36 |
|
||
|
Выбор СУБД и подхода для проекта(дипломная работа)
|
|||
|---|---|---|---|
|
#18+
mustdwindows98aieя очень надеюсь, что может быть есть какие то технологии в бд Ты дожил до диплома и ни разу не слышал о Full Text Search? В морг. Posted via ActualForum NNTP Server 1.5 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.04.2012, 13:01 |
|
||
|
Выбор СУБД и подхода для проекта(дипломная работа)
|
|||
|---|---|---|---|
|
#18+
Dimitry Sibiryakov, Ну этот фулл текст сёрч и не такой уж и архиклассный - есть нем и недостатки. А если дело пахнет пи ха пи - то Люсен однозначно. Ну или другие поделки :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.04.2012, 13:23 |
|
||
|
Выбор СУБД и подхода для проекта(дипломная работа)
|
|||
|---|---|---|---|
|
#18+
SignOffНу этот фулл текст сёрч и не такой уж и архиклассный - есть нем и недостатки. Я бы сказал больше - он полный отстой, но для диплома сойдёт. Posted via ActualForum NNTP Server 1.5 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.04.2012, 13:43 |
|
||
|
Выбор СУБД и подхода для проекта(дипломная работа)
|
|||
|---|---|---|---|
|
#18+
Dimitry Sibiryakov, простите нас мертвяков, но представьте, дожил. И причина тому - диплом не по бд, а по защите информации. И основная часть диплома - это сбор и переработка информации, а систему предоставления и поиска позволяется использовать даже готовую, просто подобного СВОБОДНОГО я не нашел. Тема бд для меня хоть и знакома, но по курсу - вторична. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.04.2012, 13:54 |
|
||
|
Выбор СУБД и подхода для проекта(дипломная работа)
|
|||
|---|---|---|---|
|
#18+
Люди, диплом не в том чтобы систему эту систему написать, это максимум 10% работы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.04.2012, 13:55 |
|
||
|
Выбор СУБД и подхода для проекта(дипломная работа)
|
|||
|---|---|---|---|
|
#18+
SignOff, спасибо большое, я посмотрел по нему информацию. заявляется, что "на современном оборудовании 95 гб за час" у меня будет около 10, значит поиск в самом худшем случае будет идти около 6 мин. правда не совсем понятно что имеется в виду под "современным оборудованием". вариант очень неплохой, у меня есть представление о том, что это действительно ресурсоемкая задача, но может быть есть еще другие подходы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.04.2012, 14:01 |
|
||
|
Выбор СУБД и подхода для проекта(дипломная работа)
|
|||
|---|---|---|---|
|
#18+
Dimitry Sibiryakov, спасибо, покопаю в сторону Full Text Search ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.04.2012, 15:24 |
|
||
|
Выбор СУБД и подхода для проекта(дипломная работа)
|
|||
|---|---|---|---|
|
#18+
http://sphinxsearch.com/ http://habrahabr.ru/post/104690/ хабрРаньше для поиска по сайту мы использовали обычный fulltext поиск. Но в определенный момент он перестал нас устраивать и мы решили опробовать альтернативную технологию поиска: Sphinx. К сожалению, у сфинкса совсем нет русской документации, поэтому эта статья — аналог статьи Build a custom search engine with PHP, только на русском языке и для моего локального окружения (windows 7, mysql/php) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.04.2012, 15:36 |
|
||
|
Выбор СУБД и подхода для проекта(дипломная работа)
|
|||
|---|---|---|---|
|
#18+
я бы хотел увидеть Full-text searh по PDF документу .... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.04.2012, 17:50 |
|
||
|
Выбор СУБД и подхода для проекта(дипломная работа)
|
|||
|---|---|---|---|
|
#18+
нашел интересную вещь - xapain, пока буду копать туда ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.04.2012, 19:46 |
|
||
|
|

start [/forum/topic.php?fid=32&msg=37747008&tid=1541747]: |
0ms |
get settings: |
9ms |
get forum list: |
17ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
173ms |
get topic data: |
10ms |
get forum data: |
3ms |
get page messages: |
51ms |
get tp. blocked users: |
1ms |
| others: | 246ms |
| total: | 518ms |

| 0 / 0 |
