|
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
|
|||
---|---|---|---|
#18+
Мне надо хранить интересы людей, которые они ввели в текстовое поле. Чтобы искать пересечения интересов я хочу разбить эти тексты на слова, и создать таблицу id_user (типа INT), interes (типа VARCHAR(20)) (потому что программы понимающие смысл текстов пока не изобрели). Но тут возникает вопрос эффективности хранения: зачем мне хранить все слово, если суффиксы и окончания не только не нужны, но и мешают. Причем можно пойти дальше и предположить, что, например, первые 5 букв достаточно точно идентифицируют интерес (потому что в русском языке мало РАЗНЫХ слов с одинаковыми первыми пятью буквами). Тогда можно будет изменить тип поля interes на CHAR(5). А может и 4 букв хватит (хотя "вертолет", "вертеп" и "вертихвостка" уже немного портят статистику). Думаю многие сталкивались с подобным вопросом, поэтому хочется узнать, что скажет стая. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.09.2018, 15:44 |
|
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
|
|||
---|---|---|---|
#18+
Слов в русском языке, конечно, много, но интересов у людей таки мало. Но и это малое количество они бы хотели искать не только по первым буквам, но и из середины. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
17.09.2018, 15:53 |
|
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
|
|||
---|---|---|---|
#18+
Хотя наверное правильнее посмотреть на свои данные и исходя из них принять решение: Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13.
... |
|||
:
Нравится:
Не нравится:
|
|||
17.09.2018, 15:54 |
|
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
|
|||
---|---|---|---|
#18+
AlekseySQLНо тут возникает вопрос эффективности хранения: зачем мне хранить все слово, если суффиксы и окончания не только не нужны, но и мешают. Попробуйте оценить количество различных слов, характеризующих интересы, и прикинуть, сколько килобайт хранения Вы таким образом сэкономите. Затем оценить размер html-страницы с Вашим топиком и прикинуть, сколько килобайт текста заняло обсуждение и какова получилась разница. Наконец, возьмите прайс-лист хорошей компьютерной фирмы, найдите там раздел недорогих жёстких дисков, поделите доллары на гигабайты и оцените, какую примерно экономию Вы достигли в финансовом выражении, сколько времени это у Вас заняло и какова экономическая эффективность одной минуты Вашего времени. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.09.2018, 15:58 |
|
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
|
|||
---|---|---|---|
#18+
AlekseySQL Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13.
Разумеется для получения корректного сравнения у поля interest уже должно быть отрезано окончание (и по возможность суффикс). ... |
|||
:
Нравится:
Не нравится:
|
|||
17.09.2018, 16:11 |
|
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
|
|||
---|---|---|---|
#18+
AlekseySQLМне надо хранить интересы людей, которые они ввели в текстовое поле. Чтобы искать пересечения интересов я хочу разбить эти тексты на слова, и создать таблицу id_user (типа INT), interes (типа VARCHAR(20)) (потому что программы понимающие смысл текстов пока не изобрели). Я конечно не знаю полной постановки задачи, но можно пойти по другому пути. Заранее определить перечень интересов (аля тегов) и предложить пользователю натыкать перечень этих интересов для себя даже не анализируя тесты пользователей В разборе текстов (тем более на русском языке) это мегазадача. И понять по одному слову (или тем более по нескольким буквам) однозначно тематику удастся в очень небольшом количестве случаев. Одни и те же слова есть в разных тематиках. Придется создать словарь сопоставления слов с тематиками и эта задача сводит на нет все усилия по выкусыванию этих букв хоть из начала хоть из середины слова. Ну а уж если несколько слов рядом стоящих так вообще... даже гугол отдыхает ) ... |
|||
:
Нравится:
Не нравится:
|
|||
17.09.2018, 19:53 |
|
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
|
|||
---|---|---|---|
#18+
AlekseySQLдолжно быть отрезано окончание (и по возможность суффикс).Так задача не решается. Вы так не отличите "сшить дело" от "сшить поделку". Помимо схожести слов с разным смыслом, еще важен контекст. "Я еще и на машинке могу..." - разберите, попробуйте. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.09.2018, 20:20 |
|
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
|
|||
---|---|---|---|
#18+
miksoftAlekseySQLдолжно быть отрезано окончание (и по возможность суффикс).Так задача не решается. Вы так не отличите "сшить дело" от "сшить поделку". Помимо схожести слов с разным смыслом, еще важен контекст. "Я еще и на машинке могу..." - разберите, попробуйте. 1. Мне не нужна 100% точность. Ваши примеры- очень редкие явления. 2. Когда пользователь вводить интересы, то в 99% случаев это существительные. ... |
|||
:
Нравится:
Не нравится:
|
|||
18.09.2018, 08:07 |
|
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
|
|||
---|---|---|---|
#18+
AlekseySQL, кастрация данных — неверный путь. Не знаю, что интересно вашим пользователям, но в общем случае желательно уметь различать, напр., Испанию, испанский язык и испанскую литературу. ... |
|||
:
Нравится:
Не нравится:
|
|||
18.09.2018, 10:09 |
|
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
|
|||
---|---|---|---|
#18+
AlekseySQL, как говорится, со склерозом упокой :) Наслаждайтесь частотным словарем . ... |
|||
:
Нравится:
Не нравится:
|
|||
18.09.2018, 15:28 |
|
|
start [/forum/topic.php?fid=32&msg=39703725&tid=1539999]: |
0ms |
get settings: |
10ms |
get forum list: |
16ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
145ms |
get topic data: |
11ms |
get forum data: |
2ms |
get page messages: |
46ms |
get tp. blocked users: |
1ms |
others: | 252ms |
total: | 491ms |
0 / 0 |