|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Бюро переводов. Раньше мы решали свои задачи с помощью программ полнотекстового поиска вроде dtsearch. Потом перешли на самописное добро, vb.net. Всё работает , но медленно. Наша типичная задачка: - есть таблица базы данных с двумя столбцами. В одном столбце - слово (тип string). В другом столбце- ID файла содержащего это слово и т.п. Запросом создаем табличку частотности слов, типа "слово- в скольких строках БД встречается". Если обрабатывать лишь 4000 страниц текста (порядка 250 слов на страницу)- это уже дает порядка 1 000 000 слов (т.е. записей) - и такое уже не мгновенно работает. А нам хотелось бы обрабатывать хотя бы 40 000 страниц - а это уже 10 млн записей и реально небыстро происходит. (Вообще то у нас под сотни тысяч страниц текстов, но об анализе таких объемов под 100 млн строк в БД , пока даже не задумывались..) Еще что: НЕ ТРЕБУЕТСЯ работа по сети (всё сейчас происходит на отдельном компьютере), работает один пользователь, может быть сколько угодно много библиотек, сложное развертывание, долгое создание индексов и пр Вопрос. Какая организация хранения слов даст максимальную производительность на таких задачках- выборках слов с их обсчетом и пр? (Похоже все кто делает full text search используют проприетарные технологии хранения слов- от google До DtSearch.. но нам не хотелось бы так усложнять..) Кто на таких задачах быстрее - SQLite, JET, Firebird, MS SQL Express и т.п.? Кстати, 10 млн слов - это всего лишь порядка 200 Мб (если считать макс длину слова 20 байт)- пр таких базах-крошках переход к in memory database ничего не даст, да? Интересует исключительно скорость выборки. А при прочих равных услвоиях - удобство интеграции с программами сделанными в .NET. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 14:14 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemmaКто на таких задачах быстрее - SQLite, JET, Firebird, MS SQL Express и т.п.? Та, которую знает нанятый вами программист. То недоразумение, которое на данный момент выполняет его функции надо перевести на другую работу, более соответствующую его складу ума. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 14:26 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov, Поясню. я- переводчик, не программист. Чтобы нанимать человека со знанием интересующих нас технологий работы с текстом (морфологизация, токенизация и пр) - надо хотя бы в общих чертах понимать перспективы задачи. А может там такое потребуется железо, что это будет просто нерентабельным?) Возможно , мы НЕ ТАК работаем с текстами, как следовало бы. Ок. Но ваш ответ очень типичен для рашкинских программеров). Мне, например, приходится много работать с американскими юристами- к ним обращаешься- помогут даже с общими вопросами - ибо у них есть ВИДЕНИЕ и пр. А к местным обратиться- отвечают примерно как вы). Типа вы нам ТехЗадание поставьте и пр. лепет. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 14:34 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemmaМне, например, приходится много работать с американскими юристами- к ним обращаешься- помогут даже с общими вопросами - ибо у них есть ВИДЕНИЕ и пр. Нет, потому что за свои ответы, даже бесполезные, они выставят вам счёт. Если Вы обратитесь ко мне в официальную техподдержку, я тоже помогу Вам даже с общими вопросами. За соответствующую плату. Требуемая мощность железа обратно пропорциональна квалификации вышеупомянутого программиста. Что Вы и можете наблюдать на собственном примере. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 14:40 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov, Анекдот был такой: - Если на американском форуме задать вопрос- ответят решением. - Если на израильском форуме задать вопрос- ответят вопросом. - Если на российском форуме задать вопрос- тебе объяснят , что ты идиот) Вы прям таки иллюсстрация. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 14:45 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemmaАнекдот был такой: Этот анекдот пересказывают исключительно те, кто не пытался обращаться на американские форумы. Вопросы сложнее 2+2 там остаются без ответов годами. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 14:52 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov, я исхожу исключительно из собственного опыта). программер из пост-совка может (возможно) выполнить техническую задачу- драйвер там портировать ... Но если задача выходит за рамки примитива- лучше таки общаться с белыми людьми. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 14:55 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemmaНаша типичная задачка: - есть таблица базы данных с двумя столбцами. В одном столбце - слово (тип string). В другом столбце- ID файла содержащего это слово и т.п. количество слов в конкретном языке конечно. Миллиона слов, если я не ошибаюсь, нет ни в одном языке. Так что ваша "база данных" спроектирована неверно. О чем вам и намекнул DS. Так что, вам нужно или уже готовое решение, или программист. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 14:59 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemmaлучше таки общаться с белыми людьми. Ну так вперёд! Потом расскажете о результатах. Ваши предшественники отмазывались незнанием английского, но для переводчика это было бы смешно. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 15:10 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
kdv, Я же писал в посте- "создаем табличку частотности слов," то есть - имеем десятки тысяч файлов в формате plain text. Это наши (и предоставленные заказчиками) переводы. частотность- это сколько раз слово встречается во всех файлах. или в конкретном файле. ---------------------------- пример. Было до обсчета вася-IDфайл1 петя-IDфайл1 ... вася-IDфайл2 маша-IDфайл2 ... стало (слово "Вася" встречается 2 раза, "петя"- 1 раз) вася- 2 петя- 1 --------------------------------------------------------------- Кроме того. При анализе текстов мы отбрасывам "стоп-слова" (предлоги "на", "под", междометия "ух" и пр). Еще и стеммером приводим слова к единой форме. Поэтому, с учетом того, что сырые данные нами обрабатываются (подсчет числа слов- самый простой пример обработки)- то на выходе, после обработки, таблички частотности слов редко содержат более 20 000 слов. То есть ДО обработки- миллион слов, выковыренных из txt файлов. После обработки- редко более 20 000 слов (и то там много фамилий, географических названий и пр)- ничего аномального для русского языка у нас нет. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 15:15 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemma я исхожу исключительно из собственного опыта). Так вперёд на американский форум - в чём проблемы ? lemmaпрограммер из пост-совка может (возможно) выполнить техническую задачу- драйвер там портировать ... Но если задача выходит за рамки примитива- лучше таки общаться с белыми людьми.И вы после этого ещё рассчитываете на помощь тут ? PS вы всерьёз полагаете, что ваша "задача" "выходит за рамки примитива" ? ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 15:26 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
"PS вы всерьёз полагаете, что ваша "задача" "выходит за рамки примитива" ?" А что есть "примитив"?) в моем понимании, это когда есть более-менее устраивающий заказчика алгоритм. Далее, идут задачи уровнем ниже- копаться в деталях кода. Ассемблер для тех кто ходит в очках с толстыми линзами, в общем. А в моей задаче нетривиально сделать оценку быстродействия - как время выполнения запроса бубудет меняться с ростом числа слов и пр? Нетривиально для меня, например. Но раз вы все молчите- значит и для вас. Ибо если человек не может "на пальцах" что то прикинуть, пояснить где узкое место- он не специалист. А так- постсовковый ходячий интерфейс к информации в MSDN, залитой туда белыми людьми) ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 15:35 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemmaА в моей задаче нетривиально сделать оценку быстродействия - как время выполнения запроса бубудет меняться с ростом числа слов и пр? Это-то как раз тривиально: никак не будет меняться. Потому что создание частотной таблицы - разовая операция. Далее актуальность информации в ней обычно поддерживается триггерами. Поэтому запрос к этой таблице будет иметь постоянную скорость. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 15:47 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemma Ибо если человек не может "на пальцах" что то прикинуть, пояснить где узкое место- он не специалист. А так- постсовковый ходячий интерфейс к информации в MSDN, залитой туда белыми людьми ) Индусы - они... Как бы это... Не совсем белые. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 15:52 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemma, Подобная задача сейчас крутится на ms sql без проблем вообще вот первых 20 по числу упоминаний: Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26.
... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 15:59 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov, "Это-то как раз тривиально: никак не будет меняться. Потому что создание частотной таблицы - разовая операция. Далее актуальность информации в ней обычно поддерживается триггерами. Поэтому запрос к этой таблице будет иметь постоянную скорость." - Отлично! Интересует именно МИНИМИЗАЦИЯ времени выполнения данной "разовой операции". Ибо: Сегодня мы работаем с одним набором текстов от одного заказчика, завтра - с совсем другим набором. Но каждый раз перед началом перевода делается некая "переводческая аналитика". //Это скучная наша кухня. Если "на пальцах"- смотрим насколько тексты пересекаются с тем, что мы пранее переводили, доля аббревиатур-чисел в текстах и пр// В эту "аналитику" входит и то , что мы сейчас делаем запросами к БД- создание итз выковыренных из текстов слов "табличек показывающих с какой частотой встречается слово в данной группе текстов" . Для каждой группы текстов- СВОЯ табличка частотности. То есть, ранее выполненная работа с ИНЫМИ текстами НИКАК нам не помогает для обсчета НОВОЙ кучи текстов. Вот и интересуемся- какая БД для конкретного набора текстов создаст "табличку частотности" з аминимальнео время. PS Можно, конечно, и просто программой пройтись по сырым текстовым файлам- и прямо во время прохода по сырцам сделать такую табличку. Но такое не годится. Нам нужно много запросов- и хотелось бы все таки делать это максимально стандартными способами- запросами к НЕКОЙ БД, а не писать уникальный код для каждой выборки по словам(. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 16:04 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
РосгоснанораспилтрестlemmaИбо если человек не может "на пальцах" что то прикинуть, пояснить где узкое место- он не специалист. А так- постсовковый ходячий интерфейс к информации в MSDN, залитой туда белыми людьми ) Индусы - они... Как бы это... Не совсем белые. - Ну поправим- белые и не совсчем белые, но отбеленные немного) ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 16:06 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemma, fа вчем проблема? Вы весьма подробно описали, как решать вашу задачу. Мне не очень понятно,в чем тормоза. Может вам не стоит каждый раз ковырять всю базу текстов заново с нуля при каждом запросе? А подгружать файл в базу по мере его поступления, при подгрузке пересчитывать частотности. Тут форум технический, уточните проблему - поможем. А на хамов внимания не обращайте. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 16:07 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Andrey Sribnyak, "Подобная задача сейчас крутится на ms sql без проблем вообще вот первых 20 по числу упоминаний:" - Вы делаете упор на "Без проблем". А для меня ваш ответ не очень информативен, ибо как я писал: 1) Есть набор текстов 2) Надо сделать табличку частотности 3) Работа с КАКОЙ БД МИНИМИЗИРУЕТ (!!!!) время создания таблички подобной той что вы указали. Ну сделали вы табличку. Так мы и сами можем. Какая связь вашего ответа с моим постом? Я в нем спрашивал о минимизации времени ее первичного создания. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 16:09 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Ggg_oldТут форум технический В первую очередь - тут форум "Сравнение СУБД". Судя по описанию задачи, сравнивать СУБД тут вообще ни к чему. Дмитрий Сибиряков по поводу сравнения и выбора первым же предложением выдал исчерпывающий ответ - "та, которую знает нанятый вами программист". Разве что TJ7 можно ещё порекомендовать, в качестве наилучшего выбора. А дальше или в форум "Работа", или в форум "Программирование", или в специализированный форум по конкретной СУБД. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 16:13 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemmaДля каждой группы текстов- СВОЯ табличка частотности. Нет, табличка на всех общая. В ней просто есть дополнительное поле "группа текстов". Почитайте уже какие-нибудь азы проектирования БД... Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 16:16 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemma, База данных она лишь >>>ХРАНИТ <<< какие-то данные. Минимизировать время для ее заполнения она не в состоянии. Вам же необходима какая-то программная часть которая : а. Будет разбирать каждый из файлов на составные часть т.е слова 6. Будет проверять есть ли такое слово в словаре с. В зависимости от предыдущего шага будет либо увеличивать счетчик, либо добавлять новую запись в словарь Мне не понятна суть проблемы... ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 16:16 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Andrey SribnyakМне не понятна суть проблемы... Суть проблемы выражена словами ТСа "я не программист, а переводчик". PS: "Беда коль сапоги начнёт тачать пирожник..." (с) Крылов. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 16:19 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemmaИнтересует исключительно скорость выборки lemmaВот и интересуемся- какая БД для конкретного набора текстов создаст "табличку частотности" з аминимальнео время. Кто-то может это расшифровать ? ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 16:35 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Ggg_old, "lemma, вчем проблема? Вы весьма подробно описали, как решать вашу задачу. Мне не очень понятно,в чем тормоза." Спасибо. Проблема, похоже в том, что я не могу сформулировать задачу: А) Я не программист. Сам могу делать поверхностные вещи, скажем в vb.net. У меня есть более IT-продвинутые сотрудники, но они, увы, исполнители. Поставить цель, написать техзадание, тем более ОБОСНОВАТЬ использование архитектуры и пр- они не могут. Б) Мой бюджет ограничен- навороченного специалиста я в штат нанять не могу, да и незачем, вроде- работа то проектная. В) Наверное, идеалом было бы обращение к консалтерам. Но даже с ними как-то не хочется начинать общение с нуля. Г) Для нас ключевой момент - программа должна максимально быстро выполнять запросы о которых написано выше. //Можно упомянуть OLAP - на моем дилетантском уровне, при таком подходе из "совсем сырых" цифровых данных делаются некие срезы. Промежуточные расчеты. Используя их, аналитик может делать достаточно сложные запросы - но это будет быстро (!) ибо строятся они не через обращение к исходным данным а к результатам промежуточной обработки. НО УВЫ, ничего похожего на OLAP при работе с текстовыми данными вроде нет/// Поэтому, вроде, тут первичный вопрос о том, в каком виде хранить данные. А именно- выковыренные из исходных текстов слова и пр. (работать нам нужно именно на уровне СЛОВ. Имеющиеся средства полнотекстового поиска большинство наших задач не решают). Д) Я нигде не смог найти тестов сравнения производительности разных БД. Например, сколько времени занимает создание индекса или некий запрос для 1 млн строк . И т.п. Плюс сейчас много информации о каких то экзотических для меня вещах типа in- memory database, или базы данных с хранением по столбцам ( Column-oriented DBMS). Все они говорят , что рвут конкурентов). Плюс все пишут что у Google и пр поисковиков данные хранятся в проприетарном формате. Е) В общем- избыток информации. Я немного запутался). Упрощаю вопрос. Есть текстовый файл, plain text. он состоит из строк, в каждой строке- ровно ОДНО слово (макс длина слова 20 байт). Сколько строк? обычно до 10 000 000, но не хотелось бы как то ограничивать себя числом строк.. Нужно сделать табличку частотности. А именно: Был текстовый файл ------------- вася петя вася вася петя ............. -------------- Стала табличка частотности, сколько раз встречается слово: вася- 3 раза петя - 2 раза --------------------- Вопрос. В какой базе данных такая табличка делается быстрее всего? (то есть нам нужно сначала текстовый файл запихать в некую БД. В лоб по текст-файлам считать не годится) ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 16:36 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemmaнам нужно сначала текстовый файл запихать в некую БД. В лоб по текст-файлам считать не годится Что мешает? Задача-то (как описана) не для СУБД. Вам в key-value область. Т.е. сначала вы по файлу строите эту табличку в памяти, а потом уже можете заливать её в любую СУБД. На Lua, например, эта задача решается в десять строчек. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 16:43 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
.ЛП, "Судя по описанию задачи, сравнивать СУБД тут вообще ни к чему. " Как это ни к чему, если единственное что меня интересует, КАКАЯ именно БД максимально быстро выполнит конкретную операцию? я тут еще попытался расшифровать- для тех кто выше за деревьями не видит леса) http://www.sql.ru/forum/actualutils.aspx?action=gotomsg&tid=907965&msg=11862364 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 16:43 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Andrey Sribnyak, я тут еще попытался расшифровать- для тех кто выше за деревьями не видит леса) http://www.sql.ru/forum/actualutils.aspx?action=gotomsg&tid=907965&msg=11862364 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 16:44 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemmaКак это ни к чему, если единственное что меня интересует, КАКАЯ именно БД максимально быстро выполнит конкретную операцию? Потому что ты как баран упёрся в своё решение этой задачи "посчитать частоты вхождения слов средствами СУБД". Эта задача быстрее и проще решается ВНЕ СУБД. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 16:53 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov, /нам нужно сначала текстовый файл запихать в некую БД. В лоб по текст-файлам считать не годится/ "Что мешает? Задача-то (как описана) не для СУБД. Вам в key-value область. " - Спасибо. не знал про key value. Оказывается, это сейчас модно - http://dotsid.wordpress.com/category/key-value/ "Т.е. сначала вы по файлу строите эту табличку в памяти, " - Так не годится же ваш продход. ). Я же писал желаемую последовательность шагов: А) имеющиеся текст-файлы разбираем по словам Б) слова запихиваем в НЕКУЮ БД В) Эту базу потом ковыряем запросами, в том числе типа частотности. Задача- указать бьазу данных максимально быстро позволяющую сделать табличку частотности. То есть мы хотим работать со словами запиханными в базу. А вы предлагаете в очередной раз сделать табличку частотности ВНЕ базы данных, а потмо всё запихать в БД. Это варварский подход). Делать надо сатндартными средствами все. А не так- для каждой задачи свой код. Еще предложите табличку средствами Ассемблера создать) "а потом уже можете заливать её в любую СУБД. На Lua, например, эта задача решается в десять строчек." - вот поясните, чсто дает в даном случае обращение к языку LUA по которому мало информации, специалистов? Что , все это на с++ сделать нельзя? или вы просто слова новые любите?) ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 16:57 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov, "Потому что ты как баран упёрся в своё решение этой задачи "посчитать частоты вхождения слов средствами СУБД". Эта задача быстрее и проще решается ВНЕ СУБД." - конечно. на асемблере такое особенно быстро решается). Ты, постсовковый кодер, в состоянии ли понять, что если изначально я пишу "НАДО ДЕЛАТЬ ТАБЛИЧКУ В НЕКОЙ БАЗЕ ДАННЫХ" - то это так и надо понимать. Интересует же в КАКОЙ (!) базе она делается за минимальное время. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 16:59 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemmaТак не годится же ваш продход. ). Я же писал желаемую последовательность шагов: А) имеющиеся текст-файлы разбираем по словам Б) слова запихиваем в НЕКУЮ БД В) Эту базу потом ковыряем запросами, в том числе типа частотности. Задача- указать бьазу данных максимально быстро позволяющую сделать табличку частотности. То есть мы хотим работать со словами запиханными в базу. "Хотеть" Вы можете любую чушь. А решается эта задача именно так: 1) разбираем файл по словам. 2) Каждое слово запихиваем в БД (хотя это и глупость - запихивать надо только уникальные слова, если, конечно, у каждого слова в статье нет дополнительных атрибутов типа позиции в файле) 3) Запихиваем в БД между делом посчитанные частоты 4) Базу ковыряем запросами хоть до посинения. Именно ТАК это сделал бы любой программист. Ну а переводчики могут идти лесом в американские форумы. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 17:04 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemma"Т.е. сначала вы по файлу строите эту табличку в памяти, " - Так не годится же ваш продход. ). Я же писал желаемую последовательность шагов: А) имеющиеся текст-файлы разбираем по словам Б) слова запихиваем в НЕКУЮ БД В) Эту базу потом ковыряем запросами, в том числе типа частотности. Задача- указать бьазу данных максимально быстро позволяющую сделать табличку частотности. Допустим Вы смогли реализовать шаг а. Во время шага Б (слова запихиваем в НЕКУЮ БД) в таблице Б настраиваете триггер, который самостоятельно будет увеличивать счетчик частотности в таблице частотности. Тогда делать уже ничего не надо будет, просто вывести результат. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 17:05 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemmaили вы просто слова новые любите?) Да нет, это вы судя по всему новые слова любите (наверное профессионально-переводческое). .. Можно упомянуть OLAP ... ... сейчас много информации о каких то экзотических для меня вещах типа in- memory database, или базы данных с хранением по столбцам ( Column-oriented DBMS). Все они говорят , что рвут конкурентов). Плюс все пишут что у Google и пр поисковиков данные хранятся в проприетарном формате... ... Спасибо. не знал про key value. Оказывается, это сейчас модно ... Ага, терадату с олапом наверните. Для обработки аж двухсот мегабайт. Дотнетовский Dictionary в руки, LINQ в зубы, умные слова в жопу. Я не программист. Сам могу делать поверхностные вещи, скажем в vb.net. У меня есть более IT-продвинутые сотрудники, но они, увы, исполнители. Поставить цель, написать техзадание, тем более ОБОСНОВАТЬ использование архитектуры и пр- они не могут. Увольте своих продвинутых IT-сотрудников. Наймите за полцены непродвинутого, однако способного поставить цель и написать техзадание. А сами пойдите к нему в подмастерья, раз уж "сам могу делать поверхностные вещи, скажем в vb.net". Ну или не знаю даже... борщ варить. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 17:05 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Уважаемый топикстартер, задача, в принципе, ясна, но не хватает деталей. Вот для примера укажите сколько времени уходит на обработку в Вашем случае, и сколько бы хотелось чтобы уходило времени. И для этого примера прикрепите файлы с данными. Дело тут не столько в выборе СУБД сколько в правильном использовании(хотя не отрицаю, что разные СУБД имеют разную скорость обработки одинаковых запросов). ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 17:08 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov, "1) разбираем файл по словам." - да.это мы умеем. RegExp-ами "2) Каждое слово запихиваем в БД " - да.это мы умеем. пихали в mdb и в SQL Express. Сейчас вопрос тут вот задаем "а в КАКУЮ базу оптимальнее". "(хотя это и глупость - запихивать надо только уникальные слова, " - Вы опять отвекаетесь от темы. Мы же не обсуждаем архитектуру Базы. Мы тут обсуждаем в КАКОЙ именно базе максимально быстро делается некий простой запрос- на частотность. Но если уж хотите обсуждать кухню, то в каждом файле слово стемиируется (приводится к единой форме), слову присваивается уникальный номер внутри файла, и в базу запихивается слово и номера где оно встретилось. Для чего номера слова нужны? Чтоб сниппеты выковыривать из начального текста. Нашли незнакомео слово типа "быдлокодер" и зная его номер в файле выковыриваем окружающий его текст "... обычно в РФ быдлокодером зовут тех, кто понятия не имеет о бизнес-логике.." если, конечно, у каждого слова в статье нет дополнительных атрибутов типа позиции в файле) - есть конечно. см выше. Но речь н е окухне. а о сокрости построения таблички. 3) Запихиваем в БД между делом посчитанные частоты 4) Базу ковыряем запросами хоть до посинения. "между делом "- ага. Это ключевое слово для РФ. Тут такие как вы всё делают "между делом". Попробуйте понять, - мы хотим получить оптимизацию (быстродействие) в рамках стандартного подхода (работа с sql запросами в некой БД). А вы как обычно делают местные криворукие кулибины предлагаете изобретать велосипед) Именно ТАК это сделал бы любой программист. - так вы программист невысокого уровня, судя по темам ваших постов в этом форуме. вы пытаетесь говорить о том, что выше вашей планки.) Ну а переводчики могут идти лесом в американские форумы. - и пойдем!) ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 17:18 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Кстати, делал не так давно систему по БД автозапчастей. Там в общей сложности значительно больше 500 000 000 записей. Самые сложные выборки данных отрабатывали за 0,1-0,5 секунды, учитывая что сервером был одноядерный Sempron 1.6 2Gb оперативки. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 17:19 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemmaтак вы программист невысокого уровня, судя по темам ваших постов в этом форуме. И сколько же моих постов Вы прочитали чтобы сделать такой вывод?.. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 17:24 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
CodeGenerator, "Кстати, делал не так давно систему по БД автозапчастей. Там в общей сложности значительно больше 500 000 000 записей." -звучит интригующе! еще бы понять откуда столько записей- у них там вебкамера на складе что ль снимок в базу каждую секундуц сбрасывют?! "Самые сложные выборки данных отрабатывали за 0,1-0,5 секунды, учитывая что сервером был одноядерный Sempron 1.6 2Gb операти" - смотрите. Я говорю об операциях суммирования. Берется слово и считается сколько раз встретилось. То есть, чтобы ТАКОЕ проделать - базе тупо приходится перебирать ВСЕ свои строки. Тут индексы и пр НИКАК не помогут. В моем случае , все таки, полагаю, перебор с суммированием 500 млн записей за СЕКУНДУ - это пока не для десктопов) ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 17:25 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov, посмотрел ваш профиль. названий 10- этого вполне достаточно. вы узкоспециализированный программист. такие тоже нужны. но на стадии определения архитектуры вы мало полезны, полагаю. ничего личного. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 17:27 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemmaв каждом файле слово стемиируется (приводится к единой форме) О! Сейчас придёт Di_Line и славно над вами поиздевается... lemma"между делом "- ага. Это ключевое слово для РФ. Тут такие как вы всё делают "между делом". Попробуйте понять, - мы хотим получить оптимизацию (быстродействие) в рамках стандартного подхода (работа с sql запросами в некой БД). "Мимоходом" это пять дополнительных строчек в той программе, которая заносит слова в БД. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 17:28 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
CodeGenerator, поправлю свой ответ- "базе тупо приходится перебирать ВСЕ свои строки. Тут индексы и пр НИКАК не помогут." точнее, тут я в кухню полез- может это и не так. но цифры у вас все равно любопытные. 500 млн записей на таком железе- это необычная какая то ситуация ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 17:30 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov, "и славно над вами поиздевается" - если придет такой же дурачк как ты, то поиздеваться не поучится) ты постоянно уходишь от ответа на простйо вопрос - у какой бд для конкретной выборки максимальная скорость к особенностям реализации) ps кстати, заинтриговал. как вообще могут над кем то издеваться люди, если в РФ вроде вообще нормальных специалистов нет? все у кого руки не кривые - уехали, не?) ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 17:32 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov, ""Мимоходом" это пять дополнительных строчек в той программе, которая заносит слова в БД" - пятно на рубагке либо есть, либо нет. Такие вещи бинарные) Люди либо гадят (бросают "пять сигареток" мимо урны) , либо нет. Программа либо сделана качественно, либо коряво- таким как ты, кодером из села Верхние Залупки) видал я тексты таких клованов). сплошной код без комментариев- верный признак того, что чел из РФ писал)) ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 17:35 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemma, Еще раз спрошу... зачем каждый раз пересчитывать ,сколько это слово уже раз встречалось???? Почему нельзя <<<каждый раз>>>, когда вы добавляете это слово просто увеличивать счетчик на единицу(в отдельной таблице, где эти слова в единственном экземпляре)? Кто вам мешает??? И тогда в конечном итоге вам просто нужно будет посмотреть частотность необходимых слов ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 17:37 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemmaесли придет такой же дурачк как ты, то поиздеваться не поучится) Тогда скажи мне, милое дитя: к какой единой форме у вас там приведётся слово "день"? С учётом что Di_LineДля бабесов поясняю на прЫ мере: 1. День. При поиске учесть только морфемы: дни - дней - днями и тд и тп 2. День. При поиске учесть только морфемы: денешь - девать - девают и тд и тп lemmaты постоянно уходишь от ответа на простйо вопрос - у какой бд для конкретной выборки максимальная скорость к особенностям реализации) На этот простой вопрос я дал простой ответ ещё в первом посте. Хочешь конкретики: Oracle с материализованным представлением сделает это мгновенно. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 17:42 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Andrey Sribnyak, "Еще раз спрошу... зачем каждый раз пересчитывать ,сколько это слово уже раз встречалось???? Почему нельзя <<<каждый раз>>>, когда вы добавляете это слово просто увеличивать счетчик на единицу(в отдельной таблице, где эти слова в единственном экземпляре)? Кто вам мешает???" --------------- Что хочу я: - загнав слова в БД делать некие специфические запросы. Интересует исключительно скорость выполнения для разных баз. При том что В МОМЕНТ ЗАБИВАНИЯ ИНФО в базу никаких специальных дополнительных действий (построение таблиц чсастотности)- не производится. Грубо говоря- загнали лсова в базу. Сделали индекс. И пинаем базу запросами ЧТо предлагаете вы: - параллельно таблице "исходной сырой информации" делать "на лету некие дополнительные объекты. А именно- через счетчик строить некий ДОПОЛНИТЕЛЬНЫЙ объект. Словарь его назовем или табличу вхождений. Понятно, что если подобное раз пострноить (при загрузке данных в БД)- все летать будет. По сути, вы предлагает заранее создать интересующий нас объект. И все будет быстро. Так мы это умеем. Но хотим НИЧЕГО не создавать заранее. А таблички генерировать тупо запросом. Мы же не банк, где есть четкая рутина. Где можно прописать рабочие места, запросы и пр- и софт может работать долго без сильных изменений. У нас задачи-то разные и характер запросов разный. Локализовать софт и перевести тома документов- совсем разные запросы понадобятся. Каждый раз что то специально выстраивать- неразумно. Для нас оптимально- что тот кто анализирует тексты , создает запросы в наглядной и простой среде вроде ms access. А вопрос в том- какие хранилища этими запросами обрабатываются. ЧТоб была макс скорость. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 17:49 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov, "Тогда скажи мне, милое дитя: к какой единой форме у вас там приведётся слово "день"?" - ты, недокодер, опять путаешь вопрос скорости и детали реализации совсем иного блока. Для НАШИХ целей НЕ ПРИНЦИПИАЛЬНО к какой форме стеммер приведет слово. Ибо. У нас , условно говоря, есть два объекта: А) паттерн (шаблон, маска ). Это набор неких слов Б) Анализируемый текст. Так вот стеммер обрабатываети сначала и А) и Б), и сравнение идет уже по результатам его труда (а они иногда выглядят дурацки. на неологизмах типа "упячка" любой тсеммер обламается). так что в какую форму преобразует конкретное слово сьеммер- нам обычно не важно. Такова жизнь. Хотя иногда важно. Но зачем от обсуждения минимальной скорости выполнения запроса ты перевел разговор на стемминг? Ты написал про value-key и оракл. спасибо. остальное можешь выбросить в печку.) ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 17:56 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemmaНо зачем от обсуждения минимальной скорости выполнения запроса ты перевел разговор на стемминг? Но вас же интересует запрос подсчёта частоты вхождения слова в текст. Было бы странно если бы на текст "косил косой косой косой" запрос на слово "коса" выдал нуль... Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 18:06 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov, "Но вас же интересует запрос подсчёта частоты вхождения слова в текст. Было бы странно если бы на текст "косил косой косой косой" запрос на слово "коса" выдал нуль..." - никто и не говорит что переводческая кухня простая. Юридический перевод (как и сам юризм) очень слабо поддается автоматизации. Хотя даже машинный перевод технических текстов часто противно читать. мы пытаемся что то выковыривать по кусочку. Те задачи которые было очевидно как решать- давно у переводчиков решены. А есть задачи, где все упирается тупо в ресурсы. раз было предложение в- течение ДНЯ (!) распознать порядка 10 000 сканов документов (до кучи, все- с низким разрешением)- сделать анализ текстов и озвучить примерную цифру. Да я не очень понимаю как "на пальцах" выполняется запрос о котором я говорил (есть колонка слов. нужно сделать табличку с какой частотой встречается слово). Ведь можно рассуждать и так: А) алгоритмы ускорения поиска -различные индексы -давно придуманы Б) врдя ли у какой то БД есть свой, уникальный алгоритм В) если объем файла невелик (скажем до 1 Гб) - всё загоняется в память и там тупо считается. У разных баз- примерно одинаково???? Г) если все ТАК обстоит, получается, скорость выполлнения запроса зависит исключительно от мощности процессора (и их числа, если задачу можно распаралеллить)????? и никак не зависит от скорости доступа к диску иль иных деталей? ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 18:19 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
лемма, не смотря на 2 страницы топика я так и не понял до конца что вы хотите делать до конца. Но впринципе отвечу так: 1) Вам нужно загонять в базу просто слова из текста, даже повторяющиеся. Я так понял, что скорость загрузки некритична, т.е. подойдет люая современная субд. В любом случае все субд умеют загружать данные быстро через механизм bulk copy/load table итп из файла разделенного запятыми. 2)Потом вы как-то обрабатываете эти слова. Например делаете частотный анализ или еще чего-то и тут вам важна скорость. В общем современные субд меряются не сколько как быстро они выполняют одиночный селект, а как хорошо они умеют работать в режиме высокой конкурентной нагрузки. Все они умеют индексы итп. и делают выборки более менее хорошо. Для быстроты выборок важно, что-бы использовался правильный индекс. В случае индекса по текстовым полям у вас все будет быстро работать, если выборка по полю слов будет фильтровать либо по полному совпадению field='слово1' либо по частичному совпадению: field like 'слово%'. Если же вы заходитет поискать так: field like '%путин%', то индекс использоваться не будет и вы попадете на полный перебор таблицы, то есть на тормоза. Т.е. если у вас запрос будут заватать индекс, то субд не важна, все будет работать быстро. Если нет - то везде будет работать медленно. Далее, есть субд, которые умеют строить полнотекстовые индексы. Полнотектовая индексация поможет, но она расчитана на индексацию документов в полях. Полнотектовую индексациютоже умеют многие из коробки, например sybase sa,mssql, где-то она идет как опция. Но судя по постанвке она вам не нужна. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 18:40 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
есть еще мелкие тонкости,коотрые будут там давать плюс/минус, но это величина процентов величины а не порядков. В общем берите любую, загоняйте туда данные и оно будт работать быстро, если запросы будут попадать в индексы. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 18:48 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Вам надо определиться с главным: надо ли Вам таблицу со всеми словами одновременно. Сомневаюсь, что из 10 млн слов вы выбираете зразу все (пусть из них уникальных 50 000). Обычно же выбираете, скорее всего, или одно слово (сколько есть вхождений по одному слову) или слова с каким-то критерием, но никак не 50-100 тисяч за раз (ну не сможете столько просмотреть вживую). Исходя из вышеописаного выполнил похожий запрос на своей машине. Количество записей (слов) 21 800 000 из них уникальных 5 700 000 слов. Ищет слова и считает число вхождений и выводит 1000 таких слов (ну можно больше, но человек это не просмотрит) за 10-20 милисекунд. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 18:59 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
авторlemma просмотрев 3 страницы так и не понял что же все-таки нужно сделать оптимизация "чего-либо" не может быть сразу для "всего" поэтому если нужно оптимизировать надо сначала определиться с видами запросов которые будут выполняться вот еще соображения для не программиста 1 Надо ответить на вопрос какое время выполнения запроса приемлемо без этого не понятно к чему стремиться 2 Какой объем текста для обработки? Примечание Если объем текста 200 Мб а диск читает со скоростью 20 МБ/сек (а новые могут читать до 100 МБ/сек) то мы их прочтем в память за 10 сек быстрее никак 3 Прочитать 1Гб памяти занимает примерно 1 сек 4 Вывод если мы заранее загрузим в память данные то за 1 сек мы найдем нужное слово во всех файлах 5 Отсканировав в памяти один раз исходные данные мы можем какую-то обработанную информацию сохранить для того чтобы использовать ее в дальнеших запросах но для этого надо понимать что же будут за запросы но для такого маленького количества данных (200 Мб) и время обработки будет небольшим 6 хотите хранить файл где встретилось слово его позицию в файле пожалуйста в чем проблема те слово, файл, позиция - три колонки в таблице хотите слово, общее.количество.во.всех.файлах 7 Какую базу данных выбрать? есть базы данных а также отдельные движки которые могут анализировать текст но вопрос сводится к следующему Нужен ли разбор слова с учетом словоформ (числа, лица, времени, падежа и тд) Если нужен, то без спец движка не обойтись тк здесь нужен специальный словарь Если можно словоформы кодировать вручную тогда любая база данных подойдет Кстати Sql Server Full Text Search ведь тоже игнорит некоторые слова и возможно (точно не знаю) может находить слово с учетом словоформ но проблема в том что какие слова он игнорит надо как-то настраивать (те надо знать где и как) а как словоформы используются (если используются) вообще неизвестно и изменить это нельзя а при своем разборе у нас полный контроль над тем что и как делается 8 вообщем нужно более ясно сформулировать задачу и помнить что именно вид запросов на извлечение информации определяет оптимальную структуру хранения предобработанных данных а не наоборот вспомните OLAP там например информация о продажах за месяц суммируется и сохраняется поэтому легко и быстро можно получить информацию о продажах за год или за несколько месяцев но нельзя получить информацию за неделю ее там просто нет ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 19:24 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Дорогой lemma, Я представитель канадской компании и белый человек. В ответ на ваш вопрос в топике, сообщаю: 2. Вы напрасно теряете время на этом форуме. Успехов в бизнесе. Искренне ваш SERG1257 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 19:48 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
ответ товарищу с ником "ничего не понял"- "просмотрев 3 страницы так и не понял что же все-таки нужно сделать" - так такой ответ говорит о том, что вам не знакомо сово "методология" . если вы не поняли - это ваши проблемы. Я ведь денег не плачу. Значит "не поняли"- молчите. оптимизация "чего-либо" не может быть сразу для "всего" поэтому если нужно оптимизировать надо сначала определиться с видами запросов которые будут выполняться - вы мои ответы в треде точно ли читали, товарисч? вот еще соображения для не программиста 1 Надо ответить на вопрос какое время выполнения запроса приемлемо без этого не понятно к чему стремиться - я, как кондовый непрограммист, не понимаю- почему вы перевели мой вопрос в эту плоскость. Ибо это "2-ой уровень". А я спрашиваю о "1-ом, базовом , уровне"- на какой БД (н акакой технолгии. архитектуре. неу переиначтьте мой вопрос) следует остановиться чтобы получить МИНИМАЛОЬНОЕ время. 2 Какой объем текста для обработки? Примечание Если объем текста 200 Мб а диск читает со скоростью 20 МБ/сек (а новые могут читать до 100 МБ/сек) то мы их прочтем в память за 10 сек быстрее никак - нет проблем с временем закачивания в память- я вроде писал об эт ом, что по моим преставлениям объемы, скажем.... менее 4 Гб вполне можно обрабатывать в памяти не напрягаясь с диском. 3 Прочитать 1Гб памяти занимает примерно 1 сек еще раз. я не прошу оценить время считывания-я сам исходил из 50 мб/сек, ну и что. я ранее говорил- интерсующий меня бъем (менее 4 гб) вполне влезает в паямять. Я даже ранее справшивал "что с учетом этого базы In memory Не имеют преимуществ?" ну скачали мы все в память...дальше что? я и с прашиваю- надо сделать запрос. есть БД SQLITE, FIREBIRD.. и пр. КТО быстрее сделает то, вот вопрос. 4 Вывод если мы заранее загрузим в память данные то за 1 сек мы найдем нужное слово во всех файлах - это и шимпанзе понятно. выЮ, товарисч читать умеете? речь шла о том, в какой базе выполнеие запроса будети минимальным. а вы, судя по всему путаете вещи-А и Б- А) считать много байтофф с диска в память Б) со считанными в память данными выполнить запрос У вас что- "всё что считано в память , делается мгновенно"?) А у меня -нет. Поэтому и спрашиваю о МИН. врмени исполнения. "5 Отсканировав в памяти " - у вас товарисчя, горяка што ль? как это "отсканировав в память"?! один раз исходные данные мы можем какую-то обработанную информацию сохранить для того чтобы использовать ее в дальнеших запросах но для этого надо понимать что же будут за запросы но для такого маленького количества данных (200 Мб) и время обработки будет небольшим - а я где то говорил об Абсолютной величине? я говорил О МИНИМИЗАЦИИ. вы хоть это слово понимаете ли?) 6 хотите хранить файл где встретилось слово его позицию в файле пожалуйста в чем проблема те слово, файл, позиция - три колонки в таблице хотите слово, общее.количество.во.всех.файлах - колледж села Верхние Залупки? я угадал?) 7 Какую базу данных выбрать? есть базы данных а также отдельные движки которые могут анализировать текст - вот дурак то. "могут анализировать текст")))) ЛОЛ но вопрос сводится к следующему Нужен ли разбор слова с учетом словоформ (числа, лица, времени, падежа и тд) - с м. выше . мои ответы про стемминг). такому же как ты) Если нужен, то без спец движка не обойтись тк здесь нужен специальный словарь - дык есть он). А вы, уважаемый , не лезьте куда не просят). Мы о скорости выборки БД говорим а не о словоформах) Если можно словоформы кодировать вручную тогда любая база данных подойдет - ЛОЛ. см. выше в треде. ответ такому ж кулибину как ты. вспомните OLAP там например информация о продажах за месяц суммируется и сохраняется поэтому легко и быстро можно получить информацию о продажах за год или за несколько месяцев но нельзя получить информацию за неделю ее там просто нет - блин. OLAP это ЦИФРОВЫЕ данные, олух ты царя небесного! И сумма вычислется из подсумм! а для текстовых данных это не так!) ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 20:37 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
SERG1257, "Дорогой lemma, Я представитель канадской компании " - идиот ты). я, например, физтех закончил). Хоть и никогда не программировал.МФТИ тебе что то говорит?) А в канаде и сантехники коноплю проституткам продают. Ты чо представляешь то тут, ментальный недоносок?) ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 20:39 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Ggg_old, "есть еще мелкие тонкости,коотрые будут там давать плюс/минус, но это величина процентов величины а не порядков. В общем берите любую, загоняйте туда данные и оно будт работать быстро, если запросы будут попадать в индексы. " - Вы говорите вроде разумные вещи. Я , как дилетант, написал это немного иначе, но вроде как получается примерно то же самое что и вы: (тута- http://www.sql.ru/forum/actualutils.aspx?action=gotomsg&tid=907965&msg=11862621) "Ведь можно рассуждать и так: А) алгоритмы ускорения поиска -различные индексы -давно придуманы Б) врдя ли у какой то БД есть свой, уникальный алгоритм В) если объем файла невелик (скажем до 1 Гб) - всё загоняется в память и там тупо считается. У разных баз- примерно одинаково???? Г) если все ТАК обстоит, получается, скорость выполлнения запроса зависит исключительно от мощности процессора (и их числа, если задачу можно распаралеллить)????? и никак не зависит от скорости доступа к диску иль иных деталей? " ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 20:42 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemmaя и с прашиваю- надо сделать запрос. есть БД SQLITE, FIREBIRD.. и пр. КТО быстрее сделает то, вот вопрос. FVMAS. Ну или Cache. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 20:44 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
CodeGenerator, Вам надо определиться с главным: надо ли Вам таблицу со всеми словами одновременно. - ДА. Это именно так. Если подробнее- с учетом того, что мы с этим делаем- этого никак не обойти. Грубо говоря , мы строим обратный индекс (в какикх файлах встречается слов, в каком месте), но сохраняем и прямой индекс (зная номер стеммированного слова, мы можем процитировать исходный текст). Сомневаюсь, что из 10 млн слов вы выбираете зразу все (пусть из них уникальных 50 000). - что значит "выбираете"?) мы делаем А) запросы на то, сколько раз встречается слов Б) мы делаем запросы на то, сколько раз встречаются разные комбинации двух слов и так далее. Обычно же выбираете, скорее всего, или одно слово (сколько есть вхождений по одному слову) или слова с каким-то критерием, но никак не 50-100 тисяч за раз (ну не сможете столько просмотреть вживую). - не совсем вас понял. "смотреть одно слово" это типа запрос select- выбрать "в какое время ВАСЯ уходил с работы". Нас такие частности не интересуют совсем. Мы же не отдел кадров и не банк и не СБ. И мы не смотрим срез по человеку. мы сомтрим запрос по группе слов. Нас интересуют выборки именно по ВСЕМ словам. Ну сами посудите. Я делаю запрос и слово "быдлокодер" встречается мне в новом тексте на перевод 7 раз. И закем мне это??? А вот если, например, ВСЕ СОЧЕТАНИЯ ТРЕХ СЛОВ ("шинглы", shingles - такой подход используется в технологиях определения того, наколькотекст уникален а не получен копипастами) что я раньше переводил покрывают НОВЫЙ ТЕКСТ на перевод, скажем на 95% -это значит что перевод я могу сделать почтиавтоматически. Исходя из вышеописаного выполнил похожий запрос на своей машине. "Количество записей (слов) 21 800 000 из них уникальных 5 700 000 слов." - см. выше. уже какой то чудак говорил, что в языках типа русского НЕ БЫВАЕТ так много слофф) вы, товарисч, с луны упали? да если рассматривать слова отличающиеся спряжениями-склонениями как разные (а мы их и не считаем разными- см вы ше про стеммер)- то в русском максимум итысяч 100 уникальных набероется так что ВРЕТЕ вы (или заблуждаетесь ) с тем что у вас 5 700 000 уникальных слофф) вы это деффкам из села Верхние Залупки рассказ0ывайте) ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 20:54 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov, "FVMAS" ? это что за говно? яндекс про запросу выдает "FVMas - предлагаю оценить - Форум Delphi " - так за пределами РФ о Дельфи никто и не знает. Это здесь такое говно только и актуально. так что неинтересно. или вы шутите так- в ситу одноклеточности0 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 20:56 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Ggg_old, лемма, не смотря на 2 страницы топика я так и не понял до конца что вы хотите делать до конца. Но впринципе отвечу так: "1) Вам нужно загонять в базу просто слова из текста, даже повторяющиеся." - да. даже если слово в файле 100 раз встречается- мы его в БД хотим загнать. Вместе с уникальными номерами опредеяющими каждое вслов в конктерном файле - но это уже детали. "Я так понял, что скорость загрузки некритична, т.е. подойдет люая современная субд." - прожалуй. "да". скорость загрузки в базу, формирования индексов некритична. а вот скорость выборки- критична.Кстати, база может быть read only- Мы ее анализируем, но не меняем же никак! " В любом случае все субд умеют загружать данные быстро через механизм bulk copy/load table итп из файла разделенного запятыми." - скорость загрузки некритична- см выше. Мы же не считываем телеметрию с датчиков- зачем нам скорость загрузки в базу?! 2)Потом вы как-то обрабатываете эти слова. Например делаете частотный анализ или еще чего-то и тут вам важна скорость. - ИМЕЕНО ТАК!!! "В общем современные субд меряются не сколько как быстро они выполняют одиночный селект, а как хорошо они умеют работать в режиме высокой конкурентной нагрузки. " - не совсем так. вы говорите о МАССОВЫХ, типичных требованиях к базам. Вроде сбербанка или магазина автозапчастей). так там логика то проста как репа) А я - об уникальных и нестандартных задачах. Но для которых я НЕ ХОЧУ писать уникальный софт. А хочу загнать сырцы в файлы БД и пинать их стандартными sql запросами- но уж зато с максимальной скоростью! (Спасибо. Похоже- вы единственный из участников обсуждения кто понимает ЧТо мне нужно) "Все они умеют индексы итп. и делают выборки более менее хорошо. Для быстроты выборок важно, что-бы использовался правильный индекс. " - ага! я ж неспециалист. я начитался про In memory, и пр- в растерянности же. кто делает самый правильный индекс) В случае индекса по текстовым полям у вас все будет быстро работать, если выборка по полю слов будет фильтровать либо по полному совпадению field='слово1' либо по частичному совпадению: field like 'слово%'. -....хм. ключевое тут у вас "все будет быстро работать". быстро это СКОЛЬКО? встает вопрос о масштабируемости. быстро работать" - это пока все помещается в память? или как? а данных замеров по разным базам нет ли? быстро на 10 млн записей и 1000 млн зщаписей- как "быстрота" зависит от числа записей? линейно? экспоненциально??? Если же вы заходитет поискать так: field like '%путин%', то индекс использоваться не будет и вы попадете на полный перебор таблицы, то есть на тормоза. Т.е. если у вас запрос будут заватать индекс, то субд не важна, все будет работать быстро. Если нет - то везде будет работать медленно. - сложно для меня знак процента % означает "что любые символы"???? - тогда мы таие конструкции не используем. у нас такого нету, это для нас неприемлемо долго Далее, есть субд, которые умеют строить полнотекстовые индексы. - так они работают на уровне ДОКУМЕНТОВ. тое сть решают простейшие задачи типа "покажи документ содержащий слов ВАСЯ" А мы работаем на более тонком уровне, на уровне слов. Типа "Покажи документы одержащите слово ВАСЯ более 30 раз" - такие вопросы full text search обрабатывать не умеют- это нормальныим людям не надо, а вот переводчикам как раз надо Полнотектовая индексация поможет, но она расчитана на индексацию документов в полях. Полнотектовую индексациютоже умеют многие из коробки, например sybase sa,mssql, где-то она идет как опция. Но судя по постанвке она вам не нужна. - имеено так. Мы пользовались порой dtsearch. Красивая штука. Бустро формирует индексы на документах объемом 1 Тб... Но для наших целей она грубовата- она работает таки с выводом ФАЙЛОВ а мы - выводом СЛОВ. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 21:18 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemma: на самом деле скорость дисковой подсистемы обычно критичная для большинства применений субд. Но у вас нестандартное применение, так что возможны варианты. Если ваша база влезет в кэш память, то это будет просто отлично. Но надо понимать, что после сразу запуска кэш будет холодыным и лишь по мере использования данные с диска будут подчитываться в оперативвную память. Но это все мелкие детали. Важно, чо-бы ваши запросы попадали в индексы, иначе - пролет и тормоза. И еще, если бы не было никакой разницы, то был бы на рынке только один продукт, но это не так. Тут как с автомобилями, двигатель внутреннего сгорания есть у всех, но вот разница в реализации деталей и дизайне кузова :) Важными факторами для подбора сервера является наличие вменяемоего стоимостного оптимизатора, автоматическая поддержка статистики распределения данных, простота администрирования, Те запросы, что вы озвучили не есть сложные и по сути сводятся к задаче: поиск по ключу. Тут засад быть не должно. итак, на вашем примере структура: create table words ( file_name varchar(64)l, --имя файла word varchar(48), pos int --позиция/номер слова попорядку в файле ) Индексы: 1) составной: по полям file_name, word 2) по одному полю: word Первый нужен, исходя из озвученных вами условий, что выборка нужна иногда не по всей базе а по группе файлов. Как формируются эти группы оставим за скобками, допустим, что их имена передаются как список параметров. второй нужен для озвученных вами запросов, найти в каких файлах встречаются слова или группа слов. Быстрый поиск возможен, только если слова как вы говорите нормализованы к неким словоформам, т.е. вариации с оконаниями/падежами для выборки уже не влияют. Очень сильно напрашивается предрасчитанная таблица уникальных слов в файле, которая заполняется сразу после закачки файла в базу. create table unique_words ( file_name varchar(64)l, --имя файла word varchar(48), quantity int --сколько раз встретилось слово ф айле ) Индексы - аналогичные первой таблице Теперь поиск файлов, где встречаются определенные слова select file_name, word, pos from words where file_name in (список имен файлов) and word in (список слов) все оч. просто. Но помните, строковые значения должны либо сравниваться на полное соответствие либо на совпадение начальных фрагментов, поиск по уорню слова или окончанияю не катит. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 21:39 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemma, у вас сейчас используется РСУБД или нет? ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 21:40 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemma, про индексы основной алгоритм на сегодняшний день b-tree (его вариации). В общем время поиска растет логарифмически в зависимости от объема данных. Вы как выпускник технического вуза должны еще помнить график. Т.е. график выходит на некое почти насыщение и время поиска растет очень медленно. Это и есть основа основ. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 21:51 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
забанил я его ну нельзя в таком тоне общаться ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 22:12 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lemmaВедь можно рассуждать и так: А) алгоритмы ускорения поиска -различные индексы -давно придуманы Б) врдя ли у какой то БД есть свой, уникальный алгоритм В) если объем файла невелик (скажем до 1 Гб) - всё загоняется в память и там тупо считается. У разных баз- примерно одинаково???? Г) если все ТАК обстоит, получается, скорость выполнения запроса зависит исключительно от мощности процессора (и их числа, если задачу можно распаралеллить)????? и никак не зависит от скорости доступа к диску иль иных деталей? А) одни алгоритмы придуманы не так уж и давно, другие реализованы в той или иной СУБД не так уж и давно, а в некоторых СУБД и не реализованы. Б) во-первых, алгоритмы обработки данных применяются к хранимым данным, а они в разных СУБД хранятся немного по разному (даже в памяти), и доступ к данным в памяти тоже организован по разному, во-вторых, один и тот же алгоритм оптимизируется в конкретной СУБД с целью повысить производительность для того или иного вида запросов. В) "тупо считается" - с учётом пункта А и Б не так уж и "тупо" :). Г) даже одного и того же запроса на "одинаковых" структурах БД на одном и том же железе с учётом А, Б, В получается что не одинаково. А ещё есть конфигурирование СУБД... А некоторые СУБД с некоторыми запросами и не справятся в принципе :). Чтобы ответить на ваш прямой вопрос, нужно: - получить структуры таблиц, - тестовые данные, - текст запроса, который Вас волнует (он что, всего один, кстати? 8) и протестировать это на одинаковом железе. Вы очень удивитесь, когда узнаете, что в зависимости от тестовых данных на одном и том же запросе по скорости обработки на первое место будут вырываться разные СУБД? Или что аутсайдер гонок при дополнительном конфигурировании начнёт пробиваться на первые места? Промышленные СУБД не разрабатываются под оптимальное выполнение одного вашего или чьего-либо запроса. А значит чтобы ответить на Ваш вопрос нужно провести испытания и проверить :). Кстати, похожие аргументы можно привести и по поводу in-memory dbms: они проектируются с учётом отсутствия дисковой подсистемы (дополнительного архитектурного слоя) и поэтому могут реализовывать более эффективные алгоритмы выполнения запросов. Это по поводу пункта Б... Нет пределов совершенству. Вот, например, поучительный топик на эту тему ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 22:15 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
и еще сейчас заметил в своей почте несколько жалоб на топикстартера, ну и намек на упрек в мой адрес господа, поймите меня: ну нет у меня сейчас времени постоянно следить, работы мягко говоря очень много, я и сейчас в отличии от многих на работе сижу так что либо терпите, либо выбирайте другого модератора, я не против если что ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 22:23 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
авторlemma если мы делаем одинаковый запрос на разных бд то как может отличаться время алгоритмы то одни и те же поэтому если будем выполнять просто sql запросы выбирайте любую бд которая больше нравиться на у если на 1% хотите получить отличие то делайте так как сказано выше а вот стоит ли sql хранилище использовать для данных это еще вопрос может для ваших запросов это неэффективно я не думаю что словарь лингво хранит слова в sql хранилище наверняка там подумали и сделали хранилище максимально оптимизированное для нахождения перевода с учетом словоформ и тд насчет времени исполнения по-моему если нас устраивает время выполнения 1 сек то не стоит думать как сделать то же самое за 1/10 сек те время абсолютно более оптимизация абсолютна тк в общем случае время выполнения зависит от всего и только при определенных входных данных частью параметров от которых зависит время можно пренебречь тк для выбранных входных данных эти параметры не увеличивают существеннно время из ваших слов я понял что вы собираетесь писать sql десятками ну так приведите пример хотя бы один полностью рабочий тогда может станет ясно что за запросы собираетесь запускать сканировать память - я подразумевал последовательно прочитать каждый байт ровно один раз ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 22:55 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
[quot kdv]lemma Миллиона слов, если я не ошибаюсь, нет ни в одном языке.. в английском миллион. В русском 350 тыщ ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2012, 23:12 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Lepsikв английском миллион. возможно. Якобы, в произведениях Шекспира используется около 20000 слов, у Пушкина - ~21000 слов. Причем, у Пушкина якобы половина слов используется по одному разу. Цитата: По подсчетам американских лингвистов, количество слов, используемых ныне в современном английском языке, составляет почти 986 тысяч. Как пишет канадская газета "Глоуб энд мэйл", к концу этого года количество используемых слов в этом языке может достичь отметки миллион. Древний или классический английский язык насчитывал около 60 тыс. слов. В частности, в произведениях Вильяма Шекспира встречается 25 тыс. слов. Две тысячи из них были привнесены в современный ему язык самим поэтом. Большая часть этих слов - внедренные из других языков (французского, и т.д.). Понятно что миллионом слов никто не пользуется. В юридическом языке (о котором пишет автор топика) набор слов явно не миллион. Характеристики топикстартера обсуждать не буду, хотя они показательны. На русскоязычном форуме писать на русском языке что русскоязычные форумы фигня - это апофеоз (эмигранта?). ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 00:14 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Lepsik, Миллиона слов, если я не ошибаюсь, нет ни в одном языке.. в английском миллион. В русском 350 тыщ - А что есть "слово"? Например "благолепие" - это слово? - а часто вы им пользуетесь ли? для нас "слово" это последовательность определенных символов. например, для нас CP1251 (не юникодовская кирилическая кодировка)- вподне себе "слово". так вот даже с такими "словами" , если их приводить к одной форме (стеммировать) - в русском врдя ли более 100 000 слов наберется. Но даже если и 300 000. что сие меняет?) ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 01:10 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
SergSuper, "забанил я его ну нельзя в таком тоне общаться " ------------------------------------------------------------------------- - Александр попросил меня продолжить его забаненное дело. Что у него не так было то? Он лишь как-непроессионал- спросил в "КАКОЙ БАЗЕ ТАКОЙ-ТО ЗАПРОС ДЕЛАТЬ БЫСТРЕЕ ВСЕГО". И за такое банить?! Его не интерсовали мнения местных касательно стемминга и пр. Вопрос был прост. И аккурат в тему - "выбор БД". Так что бан непонятен. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 01:11 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
АнатоЛой, "lemma, у вас сейчас используется РСУБД или нет? " ---вообще то из тиого что ранее в посте написано -это очевидно). да. используем "системы управления базами данных". Как локальные версиии типа Mdb Так и "серверные" типа урезанных ms sql. мы и далее хотим продолжать использовать некую реализацию БД. И интресуемся тем, как получсить максимальную скорость на определенных запросах. Нам кажется такая помтановка вопроса корректной. И интересной многим. А вот то что вы ерзаеет и не отвечаете по существу-нам непонятно) ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 01:11 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
tipa_shekspirАнатоЛой, "lemma, у вас сейчас используется РСУБД или нет? " ---вообще то из тиого что ранее в посте написано -это очевидно). да. используем "системы управления базами данных". Как локальные версиии типа Mdb Так и "серверные" типа урезанных ms sql. мы и далее хотим продолжать использовать некую реализацию БД. И интресуемся тем, как получсить максимальную скорость на определенных запросах. Нам кажется такая помтановка вопроса корректной. И интересной многим. А вот то что вы ерзаеет и не отвечаете по существу-нам непонятно) Для того чтобы получить максимальную скорость на определенных запросах в общем случае нужно провести некоторые действия. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 01:20 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
я как бы намекаю, что "некоторые запросы" - это слишком расплывчатое понятие Хотя и для этого случая можно выдать список рекомендаций, как-то: 1. Пригласить разработчика БД/DBA среднего уровня 2. Почитать про индексы, материализованные представления (иже они имеются в целевой БД) ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 01:22 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
3. прислушаться к тем советам, которые уже прозвучали (в частности, хранение предпросчитанных данных) ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 01:23 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
афтору с ником "ничего не понял" "если мы делаем одинаковый запрос на разных бд то как может отличаться время алгоритмы то одни и те же поэтому если будем выполнять просто sql запросы выбирайте любую бд которая больше нравиться" - так это ВАМ очевидно что "алгоритмы одни". а мне,как дилетанту , неочевидно -потому и задал вопрос. ибо вон сколько информации про базы хранящие данные постоблово а не построчно... и про базы in memory)... и типа они быстрее локальных sqlite-firebird-etc. на у если на 1% хотите получить отличие то делайте так как сказано выше - ваша оценка различия производительности "АДЫН працент" высосана из пальца, а следовательно- неинтересна) а вот стоит ли sql хранилище использовать для данных это еще вопрос - конечно. я им спрашиваю о том! вот есть хранилище в mdb файлах. И всё однопользовательское. И перейдем на сиквел. И что-скорость выполнения зароса таки увеличится? и что, сильно?) может для ваших запросов это неэффективно я не думаю что словарь лингво хранит слова в sql хранилище - у них иная задача. у них "запрос" это просто выборка. тут индекс поможет. а у нас- запрос это суммирование и пр. ) нам неинтересен примитиф лингвы) наверняка там подумали и сделали хранилище - а темы ЭТОГО поста как касается какая то лингва?) мы ж не тцпые словари обсуждаем) а производительность разных архитектрур БД на запросах не имеющих НИКАКОГО отношения к Лингве) максимально оптимизированное для нахождения перевода с учетом словоформ и тд - это к чему вапще? насчет времени исполнения по-моему если нас устраивает время выполнения 1 сек то не стоит думать как сделать то же самое за 1/10 сек - нас ничего такое не устраивает). ибо 1 сек для запросов к 1 млн слов жэто одно. а к 100 млн слов- вроде как иное) те время абсолютно ???? ета вы о чем? эйншейн вроде говорил об относительномсти)))) более оптимизация абсолютна тк в общем случае время выполнения зависит от всего - ага. "от всего". и как ваш ответ соотносится с моей постановкой вопроса?) нечго сказать- лучше промолчать, не так ли? и только при определенных входных данных частью параметров от которых зависит время можно пренебречь - да. частью параметров вроде курса йены я готов пренебречь. и что дает сие?) тк для выбранных входных данных эти параметры не увеличивают существеннно время - какие "эти"?) из ваших слов я понял что вы собираетесь писать sql десятками - ДА. ну так приведите пример хотя бы один полностью рабочий - сделать табличку. в одном столбце слово. во втором слтоблбце его частота. ВАМ даже ТАКОЙ примитифф слишком сложен?!) тогда может станет ясно что за запросы собираетесь запускать - е уверен что ВАМ что то станет ясно) сканировать память - я подразумевал последовательно прочитать каждый байт ровно один раз -надо ж. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 01:27 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
tipa_shekspirТак и "серверные" типа урезанных ms sql. мы и далее хотим продолжать использовать некую реализацию БД. И интресуемся тем, как получсить максимальную скорость на определенных запросах. Нам кажется такая помтановка вопроса корректной. И интересной многим. А вот то что вы ерзаеет и не отвечаете по существу-нам непонятно) На карвинговых лыжах какого производителя чемпион мира спустится быстрее всего с 200-метровой снежной горки? Вроде и вопрос корректный, но корректный ответ на него никто не даст. Слишком много параметров осталось неизвестными. Вот мы и ёрзаем... Вам таки быстро? Почему карвинговые? А чемпион какого года? А снег настоящий или искуственный? А обобщить и ткнуть пальцем в Оракл с псевдоаргументами могут только сейлзы и маркетологи, но вы же на техническом форуме :). И вопрос какой-то теоретический. Вам же лыжи не на раз спуститься нужны? выберите одну модель, а завтра у другого производителя более быстрая выйдет. Переезжать будете? Вот и опять таки народ пытается требования прояснить или ослабить: а может на санках? А спускаться только с этой горки прийдётся? А точно нужно самый быстрый, может достаточно просто за 16 секунд доехать? А может и ваши текущие лыжи подойдут, просто смазать нужно? :)... ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 01:30 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
tipa_shekspirSergSuper, "забанил я его ну нельзя в таком тоне общаться " ------------------------------------------------------------------------- - Александр попросил меня продолжить его забаненное дело. Что у него не так было то? Он лишь как-непроессионал- спросил в "КАКОЙ БАЗЕ ТАКОЙ-ТО ЗАПРОС ДЕЛАТЬ БЫСТРЕЕ ВСЕГО". И за такое банить?! Его не интерсовали мнения местных касательно стемминга и пр. Вопрос был прост. И аккурат в тему - "выбор БД". Так что бан непонятен.если Вам родители в детстве что-то не объяснили, мне сейчас это делать бесполезно думайте прежде чем писать мне Ваши проблемы неинтересны, не знаю зачем другие на них ведутся, но читать оскорбления неприятно, не важно в чей адрес ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 01:38 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
locky, "Для того чтобы получить максимальную скорость на определенных запросах в общем случае нужно провести некоторые действия. " РЕБЯТ. ВЫ ЧО , ИЗДЕВАЕТЕСЬ ШТО ЛЬ над нами, ?!))))) мы ж вам пишем. мы готовы провести любые более-менее СТАНДАРТНЫЕ действия типа создания индексов при закачивании инфо в БД. мы готовы перейти на более навороченные raid-ы, мы готовы докупить оперативки и пр. дейтсвия по железу - в разумных пределах. мы даже готовы скачать нужные торренты) но мы не ГОТОВЫ писать кусочки кода под каждую задачу. Александр же это озвучил: А) мы не достаточно богаты чтобы делать оптимизацию ЗАПРОСА за счет приглашения специалистов по ассемблеру или закупки необоснованно дорогого железа Б) мы тупы. мы любим примитивные графические среды разработки sql запросов типа access. мы не хотим нового ( о чем нам ту3т писали- язык Луна, Lua кажетчя) ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 01:40 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
locky, я как бы намекаю, что "некоторые запросы" - это слишком расплывчатое понятие Хотя и для этого случая можно выдать список рекомендаций, как-то: 1. Пригласить разработчика БД/DBA среднего уровня 2. Почитать про индексы, материализованные представления (иже они имеются в целевой БД) --- ОК. Я задал некий вопрос в посмте. А имеено- какие БД дают максимальную производителнсоть - причем реч=ь шла о ПРЕДЕЛЬНО ПРОСТОМ ЗАПРОСЕ) - вы мне в ответ "пригласить кого то". - Так в РФ и пришлашать то особо некого( специалисты живут в иных местах. и как ваше предложение "пригласить" сочетается с моим вопросом о мксимальнйо производительности?) ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 01:43 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
locky, "прислушаться к тем советам, которые уже прозвучали (в частности, хранение предпросчитанных данных) " ваш совет о "предпосчитанных данных"- это не совет. это говно. это игнорирование НАШИХ задач. нам ЭТО неинтересно. см. текст поста) ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 01:45 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
SergSuper, оскорбления?!))) вы почситайте первй ответ местного недоумка на мой вопрос. если это ВЫ не считает оскорблением то у вас точно ли с встроенной библиотекой классов всё в порядке?) ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 01:47 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
tipa_shekspirlocky, "Для того чтобы получить максимальную скорость на определенных запросах в общем случае нужно провести некоторые действия. " РЕБЯТ. ВЫ ЧО , ИЗДЕВАЕТЕСЬ ШТО ЛЬ над нами, ?!))))) мы ж вам пишем. мы готовы провести любые более-менее СТАНДАРТНЫЕ действия типа создания индексов при закачивании инфо в БД. мы готовы перейти на более навороченные raid-ы, мы готовы докупить оперативки и пр. дейтсвия по железу - в разумных пределах. мы даже готовы скачать нужные торренты) но мы не ГОТОВЫ писать кусочки кода под каждую задачу. Александр же это озвучил: А) мы не достаточно богаты чтобы делать оптимизацию ЗАПРОСА за счет приглашения специалистов по ассемблеру или закупки необоснованно дорогого железа Б) мы тупы. мы любим примитивные графические среды разработки sql запросов типа access. мы не хотим нового ( о чем нам ту3т писали- язык Луна, Lua кажетчя) 1. Все действия по созданию индексов - стандартные. 2. Читайте внимательно. о спеце по асму речи не было. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 01:53 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
tipa_shekspirlocky, я как бы намекаю, что "некоторые запросы" - это слишком расплывчатое понятие Хотя и для этого случая можно выдать список рекомендаций, как-то: 1. Пригласить разработчика БД/DBA среднего уровня 2. Почитать про индексы, материализованные представления (иже они имеются в целевой БД) --- ОК. Я задал некий вопрос в посмте. А имеено- какие БД дают максимальную производителнсоть - причем реч=ь шла о ПРЕДЕЛЬНО ПРОСТОМ ЗАПРОСЕ) - вы мне в ответ "пригласить кого то". - Так в РФ и пришлашать то особо некого( специалисты живут в иных местах. и как ваше предложение "пригласить" сочетается с моим вопросом о мксимальнйо производительности?) 1. максимальной производительности не существует. Всегда найдется что-то более производительное. 2. Практически любая из существующих БД предоставит вам нужные вам данные в устраивающее вас время. 2. Спецов в РФ - более чем достаточно. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 01:55 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
tipa_shekspirlocky, "прислушаться к тем советам, которые уже прозвучали (в частности, хранение предпросчитанных данных) " ваш совет о "предпосчитанных данных"- это не совет. это говно. это игнорирование НАШИХ задач. нам ЭТО неинтересно. см. текст поста) Одной из ваших задач является сбор частотной статистики слов по файлам. Учитывая тот факт, что прозвучало заявление "БД находится в режиме только для чтения" не вижу особых проблем в использовании предпросчитанных данных. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 01:56 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
АнатоЛой, На карвинговых лыжах какого производителя чемпион мира спустится быстрее всего с 200-метровой снежной горки? - меня не интересует задачи оптимизации в шщоу бизнесе, к которым относится спорт. моя постановка задчи была вполне корректна и конкретна. не уподобляйтесь демагогамм) Вроде и вопрос корректный, но корректный ответ на него никто не даст. Слишком много параметров осталось неизвестными. - почему ? параметров сегда много. и чатсь вне нашего контроля. и что с того? оценить производительность то это как мешает? я описал задачу. запрос. в ыговорите "мало" что именно вам не хватает?) в однопользовательской , локальной, БД сделать запрос на выборку с ссуммированием- кто быстрее... что еще надо?) Вот мы и ёрзаем... Вам таки быстро? Почему карвинговые? А чемпион какого года? А снег настоящий или искуственный? - хватит юродствоать. вы и так в постсовке. есть что сказть-вперед. нет-лучше помолчать0 А обобщить и ткнуть пальцем в Оракл с псевдоаргументами могут только сейлзы и маркетологи, но вы же на техническом форуме :). - при чем здлесь маркетинг? я говорил о стоимости лицензий* вроде вопрос ставился о макс скорости, не? И вопрос какой-то теоретический. - практический вопрос. у меня компьютер диском шуршит долго. а мой доход зависит от времени шуршания. Вам же лыжи не на раз спуститься нужны? выберите одну модель, а завтра у другого производителя более быстрая выйдет. - так я и спрашиваю-АУ, недокодеры! в какой (!!!) модели запрос выполняется макс. быстро) Переезжать будете? Вот и опять таки народ пытается требования прояснить или ослабить: а может на санках? А спускаться только с этой горки прийдётся? А точно нужно самый быстрый, может достаточно просто за 16 секунд доехать? - что значить "а точно"? вы так ставите вопрос и в вне интернета???? да. я поставил задачу. и мне надо ИМЕННО ЭТО. "а точно"?- да, точно. А может и ваши текущие лыжи подойдут, просто смазать нужно? :)... - вы товарисч мавзолей пойдлите с таким подходом покрасьте. вам подойдет. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 01:58 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
tipa_shekspir, существует простой способ, которым вы можете воспользоваться. Вы выкладываете свою нетленку на ФТП Какой-нибудь альтруист скачивает её, смотрит, даёт рекомендации. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:02 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
locky, "1. Все действия по созданию индексов - стандартные. 2. Читайте внимательно. о спеце по асму речи не было. " - и вы читайте внимательно пост.Речь шла о достижении МАКСИМАЛЬНЙО скорости выполнения запроса. "стандартные" действия- это в школу к идиотам. об асемблере речи не было. но говорилось о том что нужно сделать НЕЧТо вне БД. Это фигня и подход кривого кулибина. говноассемблер иными словами, уважаемый) ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:03 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
tipa_shekspirlocky, "1. Все действия по созданию индексов - стандартные. 2. Читайте внимательно. о спеце по асму речи не было. " - и вы читайте внимательно пост.Речь шла о достижении МАКСИМАЛЬНЙО скорости выполнения запроса. "стандартные" действия- это в школу к идиотам. об асемблере речи не было. но говорилось о том что нужно сделать НЕЧТо вне БД. Это фигня и подход кривого кулибина. говноассемблер иными словами, уважаемый) Уважаемый при всём моем уважении специалистами по БД тут являемся мы, а не, прошу прощения, вы и если уж мы считаем, что некоторые задачи является разумным выполнять ВНЕ бд, то, видимо, так оно и есть. В противном случае возникает вопрос - если вы всё знаете лучше нас - то к чему тогда спрашиваете? ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:05 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
locky, 1. максимальной производительности не существует. Всегда найдется что-то более производительное. - ох. уж 20 лет совка нет. а дух его везде свеж) вы ТАКОЕ деффкам из сваво села объясняйте. А для меня всегда есть разумные ограничения. И у процессоров есть ограничения. И у сфот-архитектуры. 2. Практически любая из существующих БД предоставит вам нужные вам данные в устраивающее вас время. - товарисч, вы-идиот?) я ж в посте справшивал "какая БД сие даст ЗА МИНИМАЛЬНОЕ ВРЕМЯ" про "устраивающее вас время" вы бухгалтеру Машеньке рассказывайте. а я првшивал вроде о МИНИМИЗАЦИИ времени) 2. Спецов в РФ - более чем достаточно. - если все такие ж му**ки как вы, то явно этот тезис неверный) ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:07 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
locky, "tipa_shekspir, существует простой способ, которым вы можете воспользоваться. Вы выкладываете свою нетленку на ФТП Какой-нибудь альтруист скачивает её, смотрит, даёт рекомендации. " - смешно сказали). чисто по совковски)) Я НЕ ВЕРЮ в бесплатные качественные проекты. Я таких просто не знаю. Меня раньше всегда firefox удивлял- как так. Вроде и прекрасен. И бесплатен. А вот инфо давеча прошла- гугль им 300 млн долл в год отваливает за то что у них в качестве домашней страницы гугль и указан. так что с вашей рекоменлацией "выложить на фтп" - идите ка вы в жо@у, товарисч.) // я ситмвол @ добавил. надесюьт теперь мое высказывание никого не оскорбит тута// ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:12 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Интересно, выдержу я эту беседу - или рука у меня дрогнет? Впрочем, это лирика. 1. Всегда найдется что-то более производительное. Изучайте матчасть. 2. пока вы не пригласите специалиста -ни одна из БД не даст вам максимальной производительности маленько отступление. а) вы уверены, что вам нужна именно максимальная производительность, а не достаточная? б) вы уверены, что вы готовы платить за максимальную производительность? 3) выкладывайте свою нетленку. Может и посмотрим. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:14 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
tipa_shekspir, повторюсь . Давайте скрипт БД, данные или скрипт по генерации данных, запрос, показатели тестирования этого дела на своем mdb и мс скл, характеристики своего железа. желающих запустить это дело на своих СУБД найдётся достаточно (если хоть чуть-чуть хамить перестанете). Потом народ ещё в боевом азарте пооптимизирует. Получите более-менее реальные цифры. А так воду в ступе толчём. Не будет вам однозначного ответа, зато найдёте один или несколько удовлетворяющих или выберете наименьшее зло... Такой вариант годится? ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:15 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
tipa_shekspirlocky, "tipa_shekspir, существует простой способ, которым вы можете воспользоваться. Вы выкладываете свою нетленку на ФТП Какой-нибудь альтруист скачивает её, смотрит, даёт рекомендации. " - смешно сказали). чисто по совковски)) Я НЕ ВЕРЮ в бесплатные качественные проекты. Я таких просто не знаю. Меня раньше всегда firefox удивлял- как так. Вроде и прекрасен. И бесплатен. А вот инфо давеча прошла- гугль им 300 млн долл в год отваливает за то что у них в качестве домашней страницы гугль и указан. так что с вашей рекоменлацией "выложить на фтп" - идите ка вы в жо@у, товарисч.) // я ситмвол @ добавил. надесюьт теперь мое высказывание никого не оскорбит тута// Ок. и правда - но мани но хани выкладывайте, я посмотрю её за разумную почасовую сумму. зы еще один закидон - и мы с вами попрощаемся, хоть это будет немного неловко. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:16 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
tipa_shekspirЯ НЕ ВЕРЮ в бесплатные качественные проекты. Я таких просто не знаю. Зато верите в то, что 1) кто-то из присутствующих назовёт вам СУБД по вашей формулировке задачи. 2) Это будет правда; 3)) Это вам поможет наиболее эффективно решить задачу... У каждого свои закидоны... ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:22 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
locky, "Уважаемый при всём моем уважении специалистами по БД тут являемся мы, а не, прошу прощения, вы" - специалистами являются люди сделавшие конкретный ПРОЕКТ. Вроде хотя бы Фицпатрика сделавшего ЖЖ и подарившего миру много идей. А вы, судя по ответу- недоразумение какое то , а не совсем штоб специалисты) "и если уж мы считаем, что некоторые задачи является разумным выполнять ВНЕ бд, то, видимо, так оно и есть." - дело в том что я более-менее конкретизировал свою постановку вопроса. а вот вы- нет. И это нас отличает. Вы понятия не имеете о том что есть МЕТОДОЛОГИЯ. ТО ЧТО вы изучили десяток строк - вас не извиняет) Поэтому ваш подход с термином "разумнее" не совсем понятен. Когдя я был студентом, - возился с интегральными уравнениями с нелинейностями и со стохастикой - что-то делал в ассемблере. Ибо для таких задач ВСЕГДА не будет хватать проивзодительности) И что? мне с точки зрения производительности все на Masm что ль переписывать?) это по вашему "разумнее"?) в терминах моей постановки задачи то?) - это как же так. Вот приходит специалист. И вам В противном случае возникает вопрос - если вы всё знаете лучше нас - то к чему тогда спрашиваете? ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:23 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Мне это напоминает грекса чем-то ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:26 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
tipa_shekspirКогдя я был студентом, - возился с интегральными уравнениями с нелинейностями и со стохастикой - что-то делал в ассемблере. Ибо для таких задач ВСЕГДА не будет хватать проивзодительности) Кластер и параллельные вычисления в помощь ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:27 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
В общем, любезный Или слушайте что вам говорят те, к кому вы обратились за советом, или прекращайте пудрить тут всем мозги (тем более - в такой хамской манере) ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:28 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
lockyМне это напоминает грекса чем-то На твоё предложение выложить проект - съехал (допустим побоялся/постеснялся/долго чистить БД от компромата/ещё чего). Если проигнорирует и мое выдать скрипт и свои показатели скорости, но продолжит спорить по остальным репликами - можно записывать в тролли и закрывать топик... ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:33 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
АнатоЛойlockyМне это напоминает грекса чем-то На твоё предложение выложить проект - съехал (допустим побоялся/постеснялся/долго чистить БД от компромата/ещё чего). Если проигнорирует и мое выдать скрипт и свои показатели скорости, но продолжит спорить по остальным репликами - можно записывать в тролли и закрывать топик... Да давно уже можно записывать в тролли другое дело - сознательные, или такой и есть :) ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:35 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
АнатоЛой, "Зато верите в то, что 1) кто-то из присутствующих назовёт вам СУБД по вашей формулировке задачи. 2) Это будет правда; 3)) Это вам поможет наиболее эффективно решить задачу... У каждого свои закидоны... " - хм. а почему нет то? это что-коммерческая тайна, или требует немыслимого напряжения ума? есть спорткар, джип , карьерный самосвал и ваз-2107. Я спрашиваю "на чем оптимальнее довезти мешок цемента на дачу". Ответ- на автовазе. И в чем в такой постановкем вопроса подвох? ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:39 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
tipa_shekspirАнатоЛой, "Зато верите в то, что 1) кто-то из присутствующих назовёт вам СУБД по вашей формулировке задачи. 2) Это будет правда; 3)) Это вам поможет наиболее эффективно решить задачу... У каждого свои закидоны... " - хм. а почему нет то? это что-коммерческая тайна, или требует немыслимого напряжения ума? есть спорткар, джип , карьерный самосвал и ваз-2107. Я спрашиваю "на чем оптимальнее довезти мешок цемента на дачу". Ответ- на автовазе. И в чем в такой постановкем вопроса подвох? Подвох в том, что дача - на острове, моста нет, навигация открывается в марте какой к черту автоваз? ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:41 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
АнатоЛой, -------------- вот ведь, ебанашки одномерные тута собрались). ау, кодеры пещерные! на улице начало января. я у своих друзей в Подмосковье (это , кстати, и по ip пробивается). делать нечего- погода плохая- вот про то что актуально и написал). какие "коды" , вам, тупорыликам надо то?!) А) есть 1 млн строк в формате Plain text (строка- это то что отделено \r\n) Б) каждая строка- слово. То есть string длиной до 20 байт, скажем. В) всё это добро перегнать в БД. И сделать запрос (выше уже много раз писал какой) - "коды" им подавай. ребят - ну нельзя ж быть такими тупыми то, а?) ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:44 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
tipa_shekspir, хм. И у вас проблемы с задачей в вашей постановке? Тогда я просто теряюсь. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:49 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
tipa_shekspir, смысл по айпи пробивать. Пробивать нужно сразу по хлебалу. Ты полагаешь, что кто-то уже проводил испытания твоего примера на 2 десятках СУБД? И он здесь есть? И даже скажет тебе ответ? ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:53 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
ув. шекспир. Нет простого ответа на ваш вопрос. Я так понимаю, что мои заметки лемму вы не читали, во всяком случае реакции на нее не последовало. Так вот, я там писал, что очень важен у субд нормальный оптимизатор, плюс СУБД должна нормально поддерживать статистику распределения данных в колонках. Это нужно для оптимизатора, что-бы он вверно оценивал вероятности распределения величин в колонках и соответственно выбирал наиболее оптимальный план. Нет метрики, лучшести оптимизатора, есть некий у всех практический опыт насколько часто и в каких ситуациях оптимизатор может промахнуться. Соответсвенно насколько быстро у вас сделается некая выборка сильно завиит от выбранного плана выполнения запроса сервером. Это важно. СУБД это не просто читалка блоков данных с диска, там есть множество алгоритмов выполнения одной и той-же задачи и выбр алгоритма может зависеть от текущего состояния сервера, т.е. не всегда можно предсказать как будет выполнятся конкретный запрос. Так-же есть еще понятие, насколько субд умеет выполнять один и тот-же запрос на нескольких процессорах одновременно. Не все запросы параллелятся, но если этот механизм работает, то почему бы и нет. Если у вас БД влезет в оперативку, то вообще супер. Если нет, то ставьте RAID - в юбом случае это будет полезно как для производительности, так и для надежности. И еще, есть еще такие СУБД, которые упрощенно называют колоночными (collumn oriented), они очень быстро работают на агрегации/подсчет данных в колонках. Может в вашем случае это даст за счет другой модели хранения данных сущесвенный прирост по сравнению с обычными СУБД. Но эти колоночные субд либо очень дороги (sybase IQ) либо деланные небольшими усилиями небольших фирм и как они работают в реальности - хз. Да и спецов по ним немного. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 02:59 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
locky, "хм. И у вас проблемы с задачей в вашей постановке? Тогда я просто теряюсь. " - Ты не теряйся -бодрись! ты ж не на экзамене у такого ж слабоумного как ты). еще раз: А. есть 1 млн объектов - "слов" (string, длиной до 20 байт, разделоены \r\n\) Б. их надо прегнать в БД. время перегона, время формирования индексов и пр стандартных в таких случаях действий - несущественно В. делаем запрос. показывает частотность. сколько раз встречается слово Г. Рассматриваем ВСЕ БД поддержитвающих sql запросы. Вопросы лицензионности, стоимости пока не рассматриваем. Сети нет. Пользователь один. ОС- windows, любая. Единственное ограничение- эта БД должна более менее логично (просто. эффективно) работать с visual studio (.net). Д. требьуется указать Бд делающую такой запрос за мин время. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 03:00 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
tipa_shekspirlocky, "хм. И у вас проблемы с задачей в вашей постановке? Тогда я просто теряюсь. " - Ты не теряйся -бодрись! ты ж не на экзамене у такого ж слабоумного как ты). еще раз: А. есть 1 млн объектов - "слов" (string, длиной до 20 байт, разделоены \r\n\) Б. их надо прегнать в БД. время перегона, время формирования индексов и пр стандартных в таких случаях действий - несущественно В. делаем запрос. показывает частотность. сколько раз встречается слово Г. Рассматриваем ВСЕ БД поддержитвающих sql запросы. Вопросы лицензионности, стоимости пока не рассматриваем. Сети нет. Пользователь один. ОС- windows, любая. Единственное ограничение- эта БД должна более менее логично (просто. эффективно) работать с visual studio (.net). Д. требьуется указать Бд делающую такой запрос за мин время. Dictionary<string,int> - для данной постановки задачи наиболее подходящий вариант ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 03:02 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
АнатоЛой, "tipa_shekspir, смысл по айпи пробивать. Пробивать нужно сразу по хлебалу. Ты полагаешь, что кто-то уже проводил испытания твоего примера на 2 десятках СУБД? И он здесь есть? И даже скажет тебе ответ? " - нет , я не считаю что кто то проводил тестинг моего примера. но я считаю, что с вероятностью примерно 1% на этом формуе есть не му**к а человек с приличным образованием и некривыми руками. Который знает что такое логика, интерполяция, прогнозирование и пр. Это чел может пообщаться со мной в понятном мне ключе. к тебе, тупорылику, это не относится) ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 03:03 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
tipa_shekspirА... Д. требьуется указать Бд делающую такой запрос за мин время. Сколько денег даёшь? ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 03:04 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
если кратко, то среди существующих СУБД дя вашей задачи нет какой-то такой СУБД, со встроенным убер-алгоритмом, который бы давал какой-то заметный всем результат. Если кратко: посмотрите MSSQL как весьма дружелюбный к пользователю приличный сервер. Ну и я не могу не посоветовать попробовать Sybase SA, как дружелюбный неплохой сервер с приличным оптимизатором. Но а вообще сгодится все, mysql только не берите. Ну и универсальная вундер-вафля-субд : oracle. Умеет все, но требует квалификации. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 03:06 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Ggg_old, "если кратко, то среди существующих СУБД дя вашей задачи нет какой-то такой СУБД, со встроенным убер-алгоритмом, который бы давал какой-то заметный всем результат." - спасибо! звучит реалистично. я чего то подобного ожидал(((... "Если кратко: посмотрите MSSQL как весьма дружелюбный к пользователю приличный сервер. " - конечно. мы простые. мы виндусятники. Но вот такой более узкий вопрос. если брать линейку - локальные файлы mdb, ms sql express, ms sql - отличается ли у них скорость на таких запросах? я ведь как рассуждаю- у многопользовательских вещей типа ms sql могут быть НЕКИЕ ОГРАНИЧЕНИЯ по производительности в пользу СТАБИЛЬНОСТИ. например по забираемой памяти. А у однопользовательской access такого ограничения может и не быть? как полагаете -будут ли между ними СУЩЕСТВЕННАЯ разница по скорости ( всё что меньше 20% -это не разница. эжто ерунда и погрешность) Ну и я не могу не посоветовать попробовать Sybase SA, как дружелюбный неплохой сервер с приличным оптимизатором. Но а вообще сгодится все, mysql только не берите. - спааибо. будет чем заняться... Ну и универсальная вундер-вафля-субд : oracle. Умеет все, но требует квалификации. - много про них говорят. но ни у кого из знакомых не видел, увы, в отличие от ms sql И т.п. Тесты бы посмотреть. Казалось бы чего проще- делать сложный запрос и посмотреть время ваыполшнения. Но ораклы и пр ведь под иное заточены. Под большое число одновременных запросов и пр. Нам скорее embedded database надо. Десктопные локальные однопользовательсие... ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 03:18 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
АнатоЛой, "сколько денег даешь" хм. посмотрел твои посты по профилю. у тебя там дельфи и информикс. это неинтересно. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 03:20 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
SergSupertipa_shekspirТак что бан непонятен.если Вам родители в детстве что-то не объяснили, мне сейчас это делать бесполезно думайте прежде чем писать мне Ваши проблемы неинтересны, не знаю зачем другие на них ведутся, но читать оскорбления неприятно, не важно в чей адрес Если на этом примере проинтерполировать SPb и "Подмосковье", культурность регионов просто таки сильно разная... ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 03:21 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
мне кажется понятно что хочет автор топика и какова логика тк тема форума Сравнение СУБД то предполагается что здесь люди которые повидали не одну а две, три, а может и четыре различных базы данных и он хочет чтобы его запрос каждый на своей базе прогнал таким образом каждый сделает по немногу а в сумме получится ответ по многим бд те надо сделать так 1 создать общий txt файл 2 выложить его здесь 3 создать общий запрос 4 выложить его здесь 5 каждый желающий скачает это все 6 каждый желающий запустит это все у себя (предварительно зальет в бд текст и запрос) 7 чтобы как-то привязаться к общему знаменателю можно сравнивать время выполнения на тестовой базе и на эталонной базе 8 за эталонную взять SqlExpress как всем доступную и всем известную для чистоты надо чтобы был тот же билд релиз и тд 9 сравнить во сколько раз дольше или быстрее выполняется запрос на тестовой базе в сравнении с эталонной 10 выложить результаты сюда смысла конечно никакого зато мы компетентно ответим на вопрос какая бд на заданных данных и на заданном запросе быстрее ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 03:22 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
АнатоЛой, да. пост-ленинград -это редкостная помойка. даже хуже чем москва. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 03:24 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Ой, как тут интересно ... проблема в чем, где тормозящие запросы и код? не будет нормальных вопросов - не будет ответов. ради спортивного интереса: книги брал тут -> http://alltxt.org.ua/article.php?id=060 Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16.
Код: java 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60. 61. 62. 63. 64. 65. 66. 67. 68. 69. 70. 71. 72. 73. 74. 75. 76. 77. 78. 79. 80. 81. 82. 83. 84. 85. 86. 87. 88. 89. 90. 91. 92. 93. 94. 95. 96. 97. 98. 99. 100. 101. 102. 103. 104. 105. 106. 107. 108. 109. 110. 111. 112. 113. 114. 115. 116. 117. 118. 119. 120. 121. 122. 123. 124. 125. 126. 127. 128. 129. 130. 131. 132. 133. 134. 135. 136. 137. 138. 139. 140. 141. 142. 143. 144. 145. 146. 147. 148. 149. 150. 151. 152. 153. 154. 155. 156. 157. 158. 159. 160. 161. 162. 163. 164. 165. 166. 167. 168. 169. 170. 171. 172. 173. 174. 175. 176. 177. 178. 179. 180. 181. 182. 183. 184. 185. 186. 187. 188. 189. 190. 191. 192. 193. 194. 195. 196. 197. 198. 199. 200. 201. 202. 203. 204. 205. 206. 207. 208. 209.
Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
на жабе не пишу, что-то клямка упала ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 03:27 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
tipa_shekspirАнатоЛой, "сколько денег даешь" хм. посмотрел твои посты по профилю. у тебя там дельфи и информикс. это неинтересно. А как же логика и прогнозирование? Почему думаешь, что работу буду делать я? :) И сколько денег даёшь за наводку на данный топик за каждого человека из упомянутых 1% с нужным тебе "образованием"? ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 03:28 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
ответ для "ничего не понял,"- "мне кажется понятно что хочет автор топика и какова логика тк тема форума Сравнение СУБД то предполагается что здесь люди которые повидали не одну а две, три, а может и четыре различных базы данных" - не а. Четыре это вроде до фига. Я считаю, что если чел чему то учился и у него не кривые руки -ему нет необходимости пробовать тыщу клонов. Он попробовал некое подмножество.может для самых мудрых достаточно пары ms sql И какой нипбудь firebird, а об остальном он судит экспертно. интреполируя и пр и он хочет чтобы его запрос каждый на своей базе прогнал - я такого не хочу. за такое деньги платить надо. я пару слов в ответ на мой вопрос прошу. таким образом каждый сделает по немногу а в сумме получится ответ по многим бд - ще раз. я против бесплатного труда. давеча случай с firefox только это подтвердил- ему гугль 300 млн длолл отвали в год за домашнюю страницу. вы чуть ли не об исследовании пишете. у меня и в мсфлях не было напрягать людей. у каждого есть некий олпыт. есть что сказать- ок, буджу радю нет опыта- нет проблем. промолчим) те надо сделать так 1 создать общий txt файл 2 выложить его здесь 3 создать общий запрос 4 выложить его здесь 5 каждый желающий скачает это все 6 каждый желающий запустит это все у себя (предварительно зальет в бд текст и запрос) 7 чтобы как-то привязаться к общему знаменателю можно сравнивать время выполнения на тестовой базе и на эталонной базе 8 за эталонную взять SqlExpress как всем доступную и всем известную для чистоты надо чтобы был тот же билд релиз и тд 9 сравнить во сколько раз дольше или быстрее выполняется запрос на тестовой базе в сравнении с эталонной 10 выложить результаты сюда - хм. грубо говоря железо разное. у вас более шустрая память иль еще что.это может влять на SqlExpress и тестируемую БД по разному... и это перекорежет всю картинку и сделает бессмысленной затею0 смысла конечно никакого - ок. вы из колледжа сельского, што б это понять? зато мы компетентно ответим на вопрос какая бд на заданных данных и на заданном запросе быстрее - ну ну. типа пошутили? вы б не позорились, товарисч. дураком кажетесь. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 03:31 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
АнатоЛой, А как же логика и прогнозирование? - так я тебе и ответил. ты ж - дельфи. А носитель сего по определению неинтересен в качестве эксперта, прогнозера и пр. Почему думаешь, что работу буду делать я? :) - не думаю. меньше всего мне хочется связывваться с хламом. И сколько денег даёшь за наводку на данный топик за каждого человека из упомянутых 1% с нужным тебе "образованием"? - тебе ничего не дам. за общение с такими как ты - ты мне должден доплачивать за душевные травмы. пойми, однобайтный. ты хороший чел наверное но как эксперт в данном вопросе неинтересен. ничего личного ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 03:35 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
ничего я не пошутил как иначе узнать на вопрос только померять и тогда узнать как узнать кто победит в футбольном матче? досмотреть матч до конца а не читать статистику прошлых встреч читать как сыграны были игры неделю две назад ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 03:37 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Моя душа не вынесла окончательно ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 03:38 |
|
Помогите с выбором БД для анализа текстов -до сотен тысяч страниц.
|
|||
---|---|---|---|
#18+
Люди, да вы чё? С кем Вы спорите? Зачем? Закрываю топик нафиг, все посты от этого товарища и его клонов буду тереть по возможности. И ответы тоже. Давайте держать уровень. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.01.2012, 10:25 |
|
|
start [/forum/topic.php?all=1&fid=35&tid=1552604]: |
0ms |
get settings: |
10ms |
get forum list: |
12ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
52ms |
get topic data: |
12ms |
get forum data: |
2ms |
get page messages: |
148ms |
get tp. blocked users: |
2ms |
others: | 259ms |
total: | 505ms |
0 / 0 |