|
|
|
perl: скрипт для анализа текста большого объема
|
|||
|---|---|---|---|
|
#18+
Доброго времени суток, уважаемые! Хочу попросить о помощи... Быть может задача банальна, но очень нужно её сделать, а самой тяму не хватает... Итак, необходимо написать программу, которая: 1. из текста большого объема (неограниченного) из слов построит "коллекцию" и подсчитает какое слово сколько раз используется; 2. показывает первые 30 слов, которые наиболее часто встречаются в тексте; 3. анализирует наиболее часто используемые пары слов; 4. выводит первые 20 слов, которые встречаются преимущественно парно; 5. попробовать исключить из анализа служебные части речи: предлоги, союзы, частица (в, без, до, из, к, на, по, о, от, перед, при, через, с, у, за, над, об, под, про, для, а, не и т.д. ...) Буду признательна за помощь! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2012, 16:12 |
|
||
|
perl: скрипт для анализа текста большого объема
|
|||
|---|---|---|---|
|
#18+
Какой объем текста? мегабайты, гигабайты, терабайты? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.11.2012, 06:45 |
|
||
|
perl: скрипт для анализа текста большого объема
|
|||
|---|---|---|---|
|
#18+
или нужно читать непрерывный поток? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.11.2012, 08:33 |
|
||
|
perl: скрипт для анализа текста большого объема
|
|||
|---|---|---|---|
|
#18+
Gijad, текст соизмерим с текстовым форматом книги "Война и мир"... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.11.2012, 09:59 |
|
||
|
perl: скрипт для анализа текста большого объема
|
|||
|---|---|---|---|
|
#18+
OlgagagaGijad, текст соизмерим с текстовым форматом книги "Война и мир"... Это маленький текст. 1. cчитайте его в переменную, например $text; 2. функцией split разбейте его на слова, разделитель пробел: @words = split(' ',$text); 3. объявите хэш %stat, и для всех слов из массива @words Код: php 1. 2. 3. 4. Теперь у вас есть хэш с ключом "слово" и значением "количество повторений" Точно также вы можете вместо слов использовать пары, нужно лишь немного усложнить цикл, примерно так: Код: php 1. 2. 3. 4. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.11.2012, 10:33 |
|
||
|
perl: скрипт для анализа текста большого объема
|
|||
|---|---|---|---|
|
#18+
Gijad, спасибо! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.11.2012, 07:21 |
|
||
|
perl: скрипт для анализа текста большого объема
|
|||
|---|---|---|---|
|
#18+
возможно будет сложно, но есть программы под ключевыми словами: natural language processing. большинство бесплатны и open-source. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.11.2012, 15:36 |
|
||
|
perl: скрипт для анализа текста большого объема
|
|||
|---|---|---|---|
|
#18+
это для работы с парами слов (задача 3): Код: php 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.11.2012, 16:28 |
|
||
|
perl: скрипт для анализа текста большого объема
|
|||
|---|---|---|---|
|
#18+
очень примерно - убрать из списка слова: Код: php 1. 2. 3. 4. 5. 6. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.11.2012, 16:42 |
|
||
|
|

start [/forum/topic.php?fid=23&tid=1464376]: |
0ms |
get settings: |
7ms |
get forum list: |
11ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
154ms |
get topic data: |
8ms |
get forum data: |
2ms |
get page messages: |
30ms |
get tp. blocked users: |
1ms |
| others: | 245ms |
| total: | 462ms |

| 0 / 0 |
