| 
 | 
| 
 
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв? 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  Мне надо хранить интересы людей, которые они ввели в текстовое поле.  Чтобы искать пересечения интересов я хочу разбить эти тексты на слова, и создать таблицу id_user (типа INT), interes (типа VARCHAR(20)) (потому что программы понимающие смысл текстов пока не изобрели). Но тут возникает вопрос эффективности хранения: зачем мне хранить все слово, если суффиксы и окончания не только не нужны, но и мешают. Причем можно пойти дальше и предположить, что, например, первые 5 букв достаточно точно идентифицируют интерес (потому что в русском языке мало РАЗНЫХ слов с одинаковыми первыми пятью буквами). Тогда можно будет изменить тип поля interes на CHAR(5). А может и 4 букв хватит (хотя "вертолет", "вертеп" и "вертихвостка" уже немного портят статистику). Думаю многие сталкивались с подобным вопросом, поэтому хочется узнать, что скажет стая. ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 17.09.2018, 15:44 | 
  
  
  
   | 
||
| 
 
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв? 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  Слов в русском языке, конечно, много, но интересов у людей таки мало. Но и это малое  количество они бы хотели искать не только по первым буквам, но и из середины. Posted via ActualForum NNTP Server 1.5 ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 17.09.2018, 15:53 | 
  
  
  
   | 
||
| 
 
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв? 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  Хотя наверное правильнее посмотреть на свои данные и исходя из них принять решение: Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 17.09.2018, 15:54 | 
  
  
  
   | 
||
| 
 
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв? 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  AlekseySQLНо тут возникает вопрос эффективности хранения: зачем мне хранить все слово, если суффиксы и окончания не только не нужны,  но и мешают.  Попробуйте оценить количество различных слов, характеризующих интересы, и прикинуть, сколько килобайт хранения Вы таким образом сэкономите. Затем оценить размер html-страницы с Вашим топиком и прикинуть, сколько килобайт текста заняло обсуждение и какова получилась разница. Наконец, возьмите прайс-лист хорошей компьютерной фирмы, найдите там раздел недорогих жёстких дисков, поделите доллары на гигабайты и оцените, какую примерно экономию Вы достигли в финансовом выражении, сколько времени это у Вас заняло и какова экономическая эффективность одной минуты Вашего времени. ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 17.09.2018, 15:58 | 
  
  
  
   | 
||
| 
 
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв? 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  AlekseySQL Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. Разумеется для получения корректного сравнения у поля interest уже должно быть отрезано окончание (и по возможность суффикс). ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 17.09.2018, 16:11 | 
  
  
  
   | 
||
| 
 
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв? 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  AlekseySQLМне надо хранить интересы людей, которые они ввели в текстовое поле.  Чтобы искать пересечения интересов я хочу разбить эти тексты на слова, и создать таблицу id_user (типа INT), interes (типа VARCHAR(20)) (потому что программы понимающие смысл текстов пока не изобрели). Я конечно не знаю полной постановки задачи, но можно пойти по другому пути. Заранее определить перечень интересов (аля тегов) и предложить пользователю натыкать перечень этих интересов для себя даже не анализируя тесты пользователей В разборе текстов (тем более на русском языке) это мегазадача. И понять по одному слову (или тем более по нескольким буквам) однозначно тематику удастся в очень небольшом количестве случаев. Одни и те же слова есть в разных тематиках. Придется создать словарь сопоставления слов с тематиками и эта задача сводит на нет все усилия по выкусыванию этих букв хоть из начала хоть из середины слова. Ну а уж если несколько слов рядом стоящих так вообще... даже гугол отдыхает ) ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 17.09.2018, 19:53 | 
  
  
  
   | 
||
| 
 
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв? 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  AlekseySQLдолжно быть отрезано окончание (и по возможность суффикс).Так задача не решается. Вы так не отличите "сшить дело" от "сшить поделку". Помимо схожести слов с разным смыслом, еще важен контекст. "Я еще и на машинке могу..." - разберите, попробуйте. ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 17.09.2018, 20:20 | 
  
  
  
   | 
||
| 
 
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв? 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  miksoftAlekseySQLдолжно быть отрезано окончание (и по возможность суффикс).Так задача не решается. Вы так не отличите "сшить дело" от "сшить поделку". Помимо схожести слов с разным смыслом, еще важен контекст. "Я еще и на машинке могу..." - разберите, попробуйте. 1. Мне не нужна 100% точность. Ваши примеры- очень редкие явления. 2. Когда пользователь вводить интересы, то в 99% случаев это существительные. ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 18.09.2018, 08:07 | 
  
  
  
   | 
||
| 
 
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв? 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  AlekseySQL, кастрация данных — неверный путь. Не знаю, что интересно  вашим  пользователям, но в общем случае желательно уметь различать, напр., Испанию, испанский язык и испанскую литературу. ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 18.09.2018, 10:09 | 
  
  
  
   | 
||
| 
 
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв? 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  AlekseySQL, как говорится, со склерозом упокой :) Наслаждайтесь  частотным словарем . ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 18.09.2018, 15:28 | 
  
  
  
   | 
||
| 
 | 

start [/forum/topic.php?desktop=1&fid=32&tid=1539999]:  | 
    0ms | 
get settings:  | 
    10ms | 
get forum list:  | 
    13ms | 
check forum access:  | 
    4ms | 
check topic access:  | 
    4ms | 
track hit:  | 
    54ms | 
get topic data:  | 
    11ms | 
get forum data:  | 
    2ms | 
get page messages:  | 
    48ms | 
get tp. blocked users:  | 
    2ms | 
| others: | 247ms | 
| total: | 395ms | 

| 0 / 0 | 

На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даете согласие с использованием данных технологий.