|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
Привет. Я лингвист, пишу текстовой корпус (приведенные в построчное соответствие тексты на нескольких языках с возможностью поиска по заданному слову/фразе и/или грамматическому феномену и возможностью запросов онлайн через сайт). Пишу из любви к искусству )), поэтому могу полагаться только на себя (бюджет минимальный). В детстве любил программировать на первых версиях Basic на Yamaha MSX (крейсер 80х); знаю, сегодня это звучит смешно, но других познаний в написании кода нет... Логику БД создаю сам и в этом смысле вопросов нет. Пытался разобраться самостоятельно, но многие вопросы рассудком не возьмешь - нужен только многолетний опыт. Поэтому, хочу просить совета профессионалов, а именно: 1. Какая СУБД (можно платная) не требует написания кода и имеет графические конструкторы для команд SQL (чтобы не изучать синтаксис SQL)?; 2. Если есть выбор вышеупомянутых СУБД, какая более проста и надежна - даже за счет поражения в функциональности?; 3. В каком формате (файле, редакторе) можно начать "заливать" содержимое базы данных уже сейчас, не ожидая начало работы с СУБД. Дело в том, что мне предстоит большая и кропотливая работа по "ручному" внесению данных в таблицы: одна строка текста - привязка по ключу - другая "привязанная" строка текста другой таблицы и т.д... Может MS EXCELL или ACCESS ? И можно ли будет легко экспортировать заполненные таблицы из этих редакторов в тот же, например, PHPmyadmin?; 4. Если я предоставлю логику БД, а также все заполненные таблицы - о каких порядках цифр можно говорить чтобы нанять профи для сборки БД и подготовки ее публикации в сети? Заранее очень благодарен, Денис ... |
|||
:
Нравится:
Не нравится:
|
|||
16.09.2016, 16:21 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
DM051. Какая СУБД (можно платная) не требует написания кода и имеет графические конструкторы для команд SQL (чтобы не изучать синтаксис SQL)?; IMHO Таких нет. Т.е. многие предлагают "графический конструктор" но по факту, после него все равно нужно SQL проверять/корректировать. Да и более-менее средней сложности конструкции - уже проще сразу на SQL писать, чем с интерфейсом разбираться, где какая галочка к чему приводит. Т.ч. минимальный синтаксис SQL изучать все равно нужно. DM052. Если есть выбор вышеупомянутых СУБД, какая более проста и надежна - даже за счет поражения в функциональности?; Если бесплатные и распространенные,то выбор не такой уж и большой: 1. PostgresSQL 2. MySQL Ну или бесплатные версии от вендоров: Oracle XE MS SQL DM053. Может MS EXCELL или ACCESS ? Access и сама по себе УЖЕ СУБД. Если Вы его используете как клиента, проблем никаких нет. Создавайте таблички/запросы в Access, или сразу или позже таблички перенесете в другую СУБД и подцепитесь к ней через ODBC. (лучше сразу) Импорт из CSV поддерживают почти все СУБД. Т.ч. с Excell'ем тоже проблем нет (если задача простая и по уму все делать, лишний бардак не разводить). DM054. Если я предоставлю логику БД, а также все заполненные таблицы - о каких порядках цифр можно говорить чтобы нанять профи для сборки БД и подготовки ее публикации в сети? От бесплатно до сотен миллионов рублей ))) Понятия публикация БД в сети - нет. Есть сайты. Есть сайты на основе БД. Но в любом случае требуется: 1. дизайнер / дизайн - можно обратиться к Артему Лебедеву ))) 2. верстка - преобразование дизайна в HTML вид 3. backend приложение - которое данные из БД будет объединять с версткой и отдавать пользователю красивую страничку 4. администратор - который в дальнейшем будет поддерживать сайт, вдруг что упало IMHO & AFAIK ... |
|||
:
Нравится:
Не нравится:
|
|||
16.09.2016, 20:38 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
DM05Дело в том, что мне предстоит большая и кропотливая работа по "ручному" внесению данных в таблицы: одна строка текста - привязка по ключу - другая "привязанная" строка текста другой таблицы и т.д...Зачем этот ужас? Загрузить текстовый файл в таблицу построчно - в большинстве СУБД это дело одной команды. Или имеется в виду что-то хитрое? ... |
|||
:
Нравится:
Не нравится:
|
|||
16.09.2016, 21:36 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
Leonid Kudryavtsev, Спасибо большое за обстоятельный ответ. Я не из лени пытаюсь избежать написание запросов на SQL. Самоучитель по SQL я осилил и осмыслил, но чтобы на нем писать понадобится длительная практика. По Access и .CSV я понял. Еще раз спасибо. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.09.2016, 03:47 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
miksoft, То есть, если я правильно вас понял, СУБД способна проанализировать текстовой файл, вычленить все фразы (допустим, по пунктуации текста), принять от пользователя указание сколько фраз и в каком порядке поместить в строку таблицы, а также каким шагом автоматически увеличивать индексацию строк. Далее, СУБД может то же самое проделать для следующего текстового файла и привязать таблицу созданную из этого следующего файла к первичному ключу первой таблицы. Правильно ли я понял? Если да, то значит СУБД должны обладать подстройкой условий анализа текста. То есть, например : 1) вычленить фразу как знаковое пространство между точкой и точкой...2) различать запятые и пр. знаки препинания; 3) различать заглавные и прописные ... Иначе говоря, СУБД сможет выполнить команду: 1) Найди 3 первые фразы в текстовом файле ХХ1 и помести их в строку А1; 2) Найди 3 первые фразы в тесктовом файле ХХ2 и помести их в новую таблицу в строку А12; 3) Свяжи строки А1 и А2 по ключу А1. Если все так, это упростит мне задачу. И небольшое уточнение: есть ли в библиотеке процедур SQL средства для обработки текстов и на каком языке их можно написать и вставить в БД для, например, идентификации и вычленения частей речи и заданных синтаксических форм, т.е. как дополнить тесктовые инструменты SQL? В любом случае, спасибо за подсказку )) ... |
|||
:
Нравится:
Не нравится:
|
|||
17.09.2016, 04:10 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
DM05, Давным давно был Clarion (хотя вроде бы он и сейчас есть), который позволял нарисовать БД и приложение к нему. У Access не плохой построитель запросов. Visual FoxPro тоже имеет встроенный построитель запросов. Не плохая свзяка IBExpert + Firebird. А так рекомендую все таки изучить SQL. А БД взять PostgreSQL. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.09.2016, 07:18 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
DM05miksoft, То есть, если я правильно вас понял, СУБД способна проанализировать текстовой файл, вычленить все фразы (допустим, по пунктуации текста), принять от пользователя указание сколько фраз и в каком порядке поместить в строку таблицы, а также каким шагом автоматически увеличивать индексацию строк. Далее, СУБД может то же самое проделать для следующего текстового файла и привязать таблицу созданную из этого следующего файла к первичному ключу первой таблицы. Вам точно СУБД нужна ? Я могу порекомендовать посмотреть в сторону Oracle с его Oracle Text (в XE вроде есть), но мне кажется, у вас СУБД - это лишнее звено. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.09.2016, 10:34 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
DM05есть ли в библиотеке процедур SQL средства для обработки текстов и на каком языке их можно написать и вставить в БД для, например, идентификации и вычленения частей речи и заданных синтаксических форм, т.е. как дополнить тесктовые инструменты SQL? Не, этого нет. Это задача для отдельного приложения. Хотя, при желании, можно и это запрограммировать чисто средствами SQL в любой развитой СУБД, где процедуры, функции ... |
|||
:
Нравится:
Не нравится:
|
|||
17.09.2016, 12:14 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
DM05Правильно ли я понял? Нет. СУБД занимается хранением данных. Всё. Больше она ничего не умеет. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
17.09.2016, 12:21 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
DM05, описывай задачу подробней. пока нифига не ясно. о каком размере хранилища идет речь ? если у тебя пара тысяч книг, то это запросто влезет пару гб оперативной памяти (plain text). значит такое можно запросто каждый раз сканировать полностью и не заморачиваться с какой-то индексацией. oracle xe есть oracle text, он строит индекс и дает возможность делать запросы как у гугла - типа что бы тексте встечалось то, но не встречалось это и т.п. при этом он знает языки и находит с учетом разных окончаний, приставок и т.п. но там даже с опытом sql тяжко разобраться. скорее всего тебе разумней какую-то базу с map-reduce поискать, которая будет каждый раз все хранилище целиком сканировать, только как этот map-reduce подружить с нюансами языка, всякими окончаниями, союзами и прочими я слабо представляю ... |
|||
:
Нравится:
Не нравится:
|
|||
17.09.2016, 14:00 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
DM05, если задача действительно интересная - могу помочь бесплатно. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.09.2016, 14:17 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
DM05, кажется у нас где-то вот такое использовали https://en.wikipedia.org/wiki/Elasticsearch может его с чем-то попроще чем hadoop можно использовать ... |
|||
:
Нравится:
Не нравится:
|
|||
17.09.2016, 14:32 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
Yo.!DM05, кажется у нас где-то вот такое использовали https://en.wikipedia.org/wiki/Elasticsearch может его с чем-то попроще чем hadoop можно использовать Не может можно, а точно можно. И не обязательно с чем-то. ... |
|||
:
Нравится:
Не нравится:
|
|||
18.09.2016, 12:17 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
И гуглится на раз два: text corpora with elasticsearch . ... |
|||
:
Нравится:
Не нравится:
|
|||
18.09.2016, 12:19 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
DM05То есть, если я правильно вас понял, СУБД способна проанализировать текстовой файл, вычленить все фразы (допустим, по пунктуации текста), принять от пользователя указание сколько фраз и в каком порядке поместить в строку таблицы, а также каким шагом автоматически увеличивать индексацию строк. Далее, СУБД может то же самое проделать для следующего текстового файла и привязать таблицу созданную из этого следующего файла к первичному ключу первой таблицы. Правильно ли я понял?Не совсем. Я говорил о построчной загрузке, всего лишь. А дальше уже можно дробить строки на фразы и т.д. Хотя обычные РСУБД - не лучший инструмент для этого. ... |
|||
:
Нравится:
Не нравится:
|
|||
18.09.2016, 22:15 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
DM05 , Посмотрите в сторону технологии iKnow , встроенную в СУБД Caché (платная). На хабре есть ряд статей с примерами и описанием возможностей iKnow/iFind. Также на youtube есть краткое описание этой технологии (в том числе на русском), включая вебинары от автора статей на хабре. PS: ещё есть облачные сервисы по анализу текста с помощью ИИ, например: Анализ Корана при помощи AI ... |
|||
:
Нравится:
Не нравится:
|
|||
19.09.2016, 09:07 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
Leonid Kudryavtsev, Я бы рекомендовал Firebird + ibexpert ... |
|||
:
Нравится:
Не нравится:
|
|||
19.09.2016, 09:15 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
Fantomny, Сначала не плохобы проанализировать список мелких бесплатных утилит, список бесплатного апи на яве и питоне касательно аналища текста, и тогда имя субд всплывет само ... |
|||
:
Нравится:
Не нравится:
|
|||
09.12.2016, 12:43 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
авторвозможностью запросов онлайн через сайт хостинги, на которые можно поставить что хочется - они возможно дороже, может и не принципиально, но все таки. а если на хостинге экономить - там будет mySql и возможно Postgress данные под заливку вероятно стоит готовить в чисто-текстовом виде. может быть есть смысл посмотреть Сфинкс https://www.ibm.com/developerworks/ru/library/os-sphinx/ ... |
|||
:
Нравится:
Не нравится:
|
|||
09.12.2016, 13:56 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
Fantomny, Сначала не плохобы проанализировать список мелких бесплатных утилит, список бесплатного апи на яве и питоне касательно аналища текста, и тогда имя субд всплывет само ... |
|||
:
Нравится:
Не нравится:
|
|||
09.12.2016, 17:04 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
Посмотрите на мой велосипед, в принципе конкурент акцессу http://drive-software.com/myvisualdatabase_ru.html после просмотра пару видео уроков станет ясно как пользоваться. ... |
|||
:
Нравится:
Не нравится:
|
|||
10.12.2016, 17:19 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
DM05 2. Если есть выбор вышеупомянутых СУБД, какая более проста и надежна - даже за счет поражения в функциональности?; Попробуйте Firebird. Бесплатная, простая, надёжная, вся функциональность есть, включая оконные функции. DM054. Если я предоставлю логику БД, а также все заполненные таблицы - о каких порядках цифр можно говорить чтобы нанять профи для сборки БД и подготовки ее публикации в сети? Если бы Вы объяснили, что за задача такая, ради которой из любви к искусству готовы работать бесплатно. может быть я всё сделал бы для Вас тоже бесплатно, так что многие трудности просто исчезли бы. Идёт ли речь о русских летописях, например? Или о религиозных текстах? ЗЫ. Я серьёзно. ... |
|||
:
Нравится:
Не нравится:
|
|||
02.03.2017, 13:11 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
DM054. Если я предоставлю логику БД, а также все заполненные таблицы - о каких порядках цифр можно говорить чтобы нанять профи для сборки БД и подготовки ее публикации в сети?Для "публикации в сети" могу порекомендовать Oracle Application Express. Он бесплатный, можно использовать в комплекте с Oracle XE. Порог входа минимальный, примерно как у аксесса. А SQL учить не бойтесь, чтобы что-то начать делать, там не так много надо. ... |
|||
:
Нравится:
Не нравится:
|
|||
03.03.2017, 18:22 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
Тему явно лучше закрыть, т.к. ТС давно уже удалился под сень струй и не реагирует, а к БД корпусная тема прямого отношения не имеет. Если нет каких-то страшно специфических хотелок, нужно брать готовое ПО, которого полно, в т.ч. и свободного, почти на все случаи жизни: корпусные менеджеры как использующие БД, так и обходящиеся без нее (есть на Java, на PHP, даже на R), конструкторы (GATE), библиотеки для разного рода обработки ЕЯ (NLTK и аналоги, XSFT/SFST/OpenFST/foma, реализация грамматики связей от Abisource и т.п.), системы машинного перевода (MOSES, Apertium)… ... |
|||
:
Нравится:
Не нравится:
|
|||
03.03.2017, 18:52 |
|
Выбор СУБД для Лингвистического Корпуса
|
|||
---|---|---|---|
#18+
DM05Привет. Я лингвист, пишу текстовой корпус (приведенные в построчное соответствие тексты на нескольких языках с возможностью поиска по заданному слову/фразе и/или грамматическому феномену и возможностью запросов онлайн через сайт). Пишу из любви к искусству )), поэтому могу полагаться только на себя (бюджет минимальный). В детстве любил программировать на первых версиях Basic на Yamaha MSX (крейсер 80х); знаю, сегодня это звучит смешно, но других познаний в написании кода нет... Логику БД создаю сам и в этом смысле вопросов нет. Пытался разобраться самостоятельно, но многие вопросы рассудком не возьмешь - нужен только многолетний опыт. Поэтому, хочу просить совета профессионалов, а именно: 1. Какая СУБД (можно платная) не требует написания кода и имеет графические конструкторы для команд SQL (чтобы не изучать синтаксис SQL)?; 2. Если есть выбор вышеупомянутых СУБД, какая более проста и надежна - даже за счет поражения в функциональности?; 3. В каком формате (файле, редакторе) можно начать "заливать" содержимое базы данных уже сейчас, не ожидая начало работы с СУБД. Дело в том, что мне предстоит большая и кропотливая работа по "ручному" внесению данных в таблицы: одна строка текста - привязка по ключу - другая "привязанная" строка текста другой таблицы и т.д... Может MS EXCELL или ACCESS ? И можно ли будет легко экспортировать заполненные таблицы из этих редакторов в тот же, например, PHPmyadmin?; 4. Если я предоставлю логику БД, а также все заполненные таблицы - о каких порядках цифр можно говорить чтобы нанять профи для сборки БД и подготовки ее публикации в сети? Заранее очень благодарен, Денис 1. Вам не нужен SQL. За 50 лет не было найдено ни одной прикладной задачи, для которой SQL имело бы смысл использовать. 2. MUMPS - идеальный инструмент для подобных задач. Вероятно, придется иметь дело с Cache. Или GT.M. Это зависит от Вашего помощника (п. 4). 3. Excel, конечно, подойдет. 4. От 0 (студенты МИФИ - обратитесь через Intersystems и обоснуйте актуальность) до 100 тыс. руб. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.07.2017, 15:25 |
|
|
start [/forum/topic.php?fid=35&msg=39310653&tid=1552227]: |
0ms |
get settings: |
11ms |
get forum list: |
16ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
152ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
71ms |
get tp. blocked users: |
1ms |
others: | 244ms |
total: | 517ms |
0 / 0 |