powered by simpleCommunicator - 2.0.52     © 2025 Programmizd 02
Форумы / Разработка информационных систем [игнор отключен] [закрыт для гостей] / Будущее компьютерной лингвистики
180 сообщений из 180, показаны все 8 страниц
Будущее компьютерной лингвистики
    #38702379
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Поскольку на этом форуме тусуются в основном программисты, было бы интересно узнать ваше мнение. Возможно, вы не сталкивались с компьютерной лингвистикой, машинным переводом, или вообще с областями, связанными с так называемым "искусственным интеллектом" (например, работами Рэя Круцвейла в рамках своего проекта в корпорации Google). Тем не менее, все же интересно ваше мнение о перспективах такой области, как "Компьютерная лингвистика".
Как известно, в ABBYY больше десятка лет разрабатывают технологию Compreno, изначально предназначенную для машинного перевода. Но, насколько можно предположить, эта технология связана с машинным анализом смысла и пониманием текста и может иметь приложения далеко выходящие за рамки машинного перевода.

Своими словами я вряд ли смогу лучше сказать, поэтому приведу цитату отсюда :
Compreno представляет собой технологию синтаксического и семантического анализа текста, которая опирается на универсальную для всех языков иерархию понятий и модель отношений между этими понятиями, говорят в Abbyy. В основе Compreno лежит универсальное дерево семантических понятий, которое обеспечивает понимание и анализ текстов на основе их смыслов, а не просто визуального представления.

Первое решение на базе новой технологии получило название Abbyy Intelligent Search. Оно предназначено для поиска в корпоративных системах и предоставляет результаты поиска с высокой релевантностью, поскольку учитывает не только все формы слов, но и их значения, смысловые связи между словами, расстояние между словами в искомой фразе и контекст употребления, рассказали CNews в Abbyy.

Важной особенностью смыслового анализа документов является тот факт, что в результатах поиска есть возможность фильтровать слова по их значениям. Пользователь может выбрать, хочет ли он найти среди документов, например, слово «fire» в значении «стрелять», «поджигать» или «увольнять».

Второе из представленных решений, Abbyy Intelligent Tagger, автоматически находит в текстах так называемые «сущности» (названия организаций, персон, гео-объекты, даты и денежные суммы) и размещает их в метаданных документа. В результате, информацию в корпоративных хранилищах можно классифицировать, сортировать или фильтровать по какому-либо признаку.

"Используя выявленные сущности, можно качественно улучшить целый ряд организационных процессов, связанных с анализом содержимого и ключевых параметров документов. Например, повысить приоритет обработки документов, поступающих от самых важных клиентов, создать правила для автоматического сбора сведений о клиенте или партнере, оптимизировать маршрутизацию документа по определенным критериям бизнес-процессов, упростить очистку документов от персональных и конфиденциальных данных", — говорят в Abbyy.

Оба решения в настоящий момент поддерживают английский и русский языки. В будущем разработчик планирует добавить в продукты поддержку немецкого, испанского, французского и китайского языков.

Помимо интеллектуального поиска и извлечения «сущностей» в корпоративных хранилищах, Abbyy считает важным направлением работы e-discovery — процесс поиска информации в документах компаний в рамках юридических разбирательств, аудита и расследований в США и Великобритании.

"Скорость сотрудничества компании, участвующей в судебном процессе, и полнота предоставления информации зачастую являются ключевыми факторами для присяжных и судьи, которые позволяют им оценить участие компании в процессе", — считает гендиректор Abbyy Сергей Андреев. При этом в компании не исключают возможности в дальнейшем применять продукты на основе Compreno в юридических спорах и на территории России.

«Наша индустрия нуждается в аналитике и более интеллектуальных решениях поиска, — говорит Атле Шеккеланд (Atle Skjekkeland), вице-президент и главный операционный директор Ассоциации по вопросам управления информацией и изображениями (AIIM). — Люди часто используют самые разнообразные термины для обозначения одних и тех же понятий, а потому необходимы решения, которые работают не только со значением слов, но и с контекстом. Кроме того, люди, которые находятся в поиске информации, часто не до конца понимают, что именно они ищут – им приходится перебирать варианты. И не найдя искомую информацию со 2-3 раза, они просто сдаются».

Подробнее: http://corp.cnews.ru/news/top/index.shtml?2014/04/09/567483
Вот еще данные о подготовке специалистов (магистров) в области компьютерной лингвистики:
http://www.abbyy.ru/Default.aspx?DN=aba1bbc8-6881-418e-8bd0-6bc9b2242f80
- В РГГУ, НИУ ВШЭ и МФТИ открыты кафедры "Компьютерной лингвистики" при поддержке ABBYY и IBM.

Собственно, я хотел бы узнать, не только каковы перспективы указанной области, но и насколько может быть велик предполагаемый рынок подобных (и других, связанные с машинным анализом смысла и пониманием текста) приложений?
Обсудим?
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38702596
однако2
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Martin114Собственно, я хотел бы узнать, не только каковы перспективы указанной области, но и насколько может быть велик предполагаемый рынок подобных (и других, связанные с машинным анализом смысла и пониманием текста) приложений?
Обсудим?Какой однако глупый вопрос.. :)
Конечно перспективы огромны, т.к. потенциально огромна сфера применения, особенно в связке с распознаванием (изображений, звука и т.д.).
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38702664
Фотография Petro123
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114Поскольку на этом форуме тусуются в основном программисты
нет. Тут больше аналитики в IT )
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38702683
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Petro123Martin114Поскольку на этом форуме тусуются в основном программисты
нет. Тут больше аналитики в IT )
Еще лучше. Будет интереснее узнать мнение аналитиков IT о рыночных перспективах КЛ. :)
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38703285
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
В принципе, и известные поисковые системы типа Google и Яндекс могли бы использовать технологии, аналогичные наработанным в ABBYY. Например, на запрос типа "билет до Москвы" выдавались бы результаты не только точно по ключевым словам "билет" и "Москва", но и по семантически близким понятиям "маршрут", "бронирование билетов", "транспортное агентство" и т.д.
И наоборот, в свое время я искал материалы по редундантным манипуляторам роботов и наряду со статьями про манипуляторы роботов получал половину ссылок про движущихся мобильных роботов, что мне совершенно было не нужно.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38704588
Фотография alexeyvg
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114Собственно, я хотел бы узнать, не только каковы перспективы указанной области, но и насколько может быть велик предполагаемый рынок подобных (и других, связанные с машинным анализом смысла и пониманием текста) приложений?Рынок гигантский, перспективы замечательные.
Потенциально это снятие языкового барьера для всего мира, то есть не будет англоязычного или китаеязычного интернета, будет просто общий, всем понятный интернет.
А вкупе с идеями объединения реального и виртуального мира то же самое потом войдёт и в реальный мир. Хотя это уже более сложная задача, ну так есть куда стремиться, а не "ужас, процессор в телефоне быстрее старого суперкомпьютера, и зачем это нужно, для показа картинок?"

Движения пока что особого нет, после создания неких примитивных систем перевода все на это забили, но уверен, что интерес к теме появится, если кто то сделает что то массовое, начнётся гонка.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38704683
mad_nazgul
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
alexeyvgДвижения пока что особого нет, после создания неких примитивных систем перевода все на это забили, но уверен, что интерес к теме появится, если кто то сделает что то массовое, начнётся гонка.

Движения и не будет, пока машина не научиться работать со смыслами.
А прорыва в этом пока нет.
И в ближайшее время не предвидится, т.к. мощности современных компьютеров очень слабы.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38705385
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
mad_nazgulalexeyvgДвижения пока что особого нет, после создания неких примитивных систем перевода все на это забили, но уверен, что интерес к теме появится, если кто то сделает что то массовое, начнётся гонка.

Движения и не будет, пока машина не научиться работать со смыслами.
А прорыва в этом пока нет.
И в ближайшее время не предвидится, т.к. мощности современных компьютеров очень слабы.
В принципе, возможно Вы правы, это дело на сегодняшний день рискованное. Тем более, что я сам проживаю не в Москве, где располагается компания ABBYY (и Московская Семантическая Школа), а в областном центре более, чем за тысячу километров от Москвы (и квартиры в Москве не имею). Моя знакомая девушка-программист посоветовала мне заняться более реальным делом - Big Data, тем более, что это на сегодняшний день более чем актуальная область.
Но все же амбиции ABBYY впечатляют - они замахнулись на
e-discovery — процесс поиска информации в документах компаний в рамках юридических разбирательств, аудита и расследований в США и Великобритании.

"Скорость сотрудничества компании, участвующей в судебном процессе, и полнота предоставления информации зачастую являются ключевыми факторами для присяжных и судьи, которые позволяют им оценить участие компании в процессе", — считает гендиректор Abbyy Сергей Андреев. При этом в компании не исключают возможности в дальнейшем применять продукты на основе Compreno в юридических спорах и на территории России.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38705390
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mad_nazgul...Движения и не будет, пока машина не научиться работать со смыслами.
А прорыва в этом пока нет....
Не согласен.

Уже не только спец. системы, но и бизнес-системы типа CRM имеют похожие модули

А реальные перспективы - не очень понятны. Продажа CRM систем для компаний "выбивающий долги", что бы они клиента в соц. сетях искали и рекомендовали какими фразами его лучше запугивать - как-то очень специфический бизнес ))) это реальный пример внедрения о котором на конференции рассказывали ))) /Abby тут совсем НЕ при чем/

Маркетинг и реальный бизнес - при том уровне IT который в нашей стране... не верю... что внедрение настолько сложных (в обслуживание) систем _реально_ сможет принести пользу (выгоду).
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38705444
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Leonid KudryavtsevМаркетинг и реальный бизнес - при том уровне IT который в нашей стране... не верю... что внедрение настолько сложных (в обслуживание) систем _реально_ сможет принести пользу (выгоду).
Вообще-то ABBYY - международная компания, может внедрять свои системы за рубежом.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38705582
mad_nazgul
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Leonid KudryavtsevНе согласен.

Уже не только спец. системы, но и бизнес-системы типа CRM имеют похожие модули

А реальные перспективы - не очень понятны. Продажа CRM систем для компаний "выбивающий долги", что бы они клиента в соц. сетях искали и рекомендовали какими фразами его лучше запугивать - как-то очень специфический бизнес ))) это реальный пример внедрения о котором на конференции рассказывали ))) /Abby тут совсем НЕ при чем/

Маркетинг и реальный бизнес - при том уровне IT который в нашей стране... не верю... что внедрение настолько сложных (в обслуживание) систем _реально_ сможет принести пользу (выгоду).

Проблема в том что данные системы не могут сами себе "составить алгоритм".
За них это делают люди.
Т.е. "смысл" прерогатива людей, а компьютер делает рутинные операции.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38706791
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
mad_nazgulalexeyvgДвижения пока что особого нет, после создания неких примитивных систем перевода все на это забили, но уверен, что интерес к теме появится, если кто то сделает что то массовое, начнётся гонка.

Движения и не будет, пока машина не научиться работать со смыслами.
А прорыва в этом пока нет.
И в ближайшее время не предвидится, т.к. мощности современных компьютеров очень слабы.
Между тем на Хабре опубликовали такую статью: Любительский подход к компьютерной лингвистике , в которой говорится, что системы, способным к разбору и пониманию текста на русском языке, можно в настоящее время делать "на коленке".
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38706942
mad_nazgul
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114Между тем на Хабре опубликовали такую статью: Любительский подход к компьютерной лингвистике , в которой говорится, что системы, способным к разбору и пониманию текста на русском языке, можно в настоящее время делать "на коленке".

К разбору - да.
К пониманию - нет.
Сами люди не знают как это "понимать".
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38706991
Фотография alexeyvg
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mad_nazgulalexeyvgДвижения пока что особого нет, после создания неких примитивных систем перевода все на это забили, но уверен, что интерес к теме появится, если кто то сделает что то массовое, начнётся гонка.

Движения и не будет, пока машина не научиться работать со смыслами.
А прорыва в этом пока нет.
И в ближайшее время не предвидится, т.к. мощности современных компьютеров очень слабы.ИМХО в науке постепенно движение идёт. Кстати, "понимание" - это не "алгоритм перевода текста в смысл" :-)
Это может быть, например, что то со стороны ассотиативной памяти. В общем, мозг у нас, думается, не преобразовывает картинки и колебания звуковых волн в смысл по какому то "алгоритму"...

Нужен именно бизнес-лидер, как Стив Джобс а эпплом, который, можно сказать, "открыл" для мира такое явление, как "бескнопочный телефон с сенсорным экраном", хотя формально такие выпускались уже много лет.

Так и тут - есть, например, технологии translation memory, есть некие исследования в области понимания смысла, плюс исследования в области теорий разных языков, всё это уже на современном уровне должно улучшить работу переводчиков для обычных коммерческих продуктов.

Ну и вообще, "как перспектива", интересно ведь что то сложное и большое, чем можно будет заниматься даже лет через 40? Причём в этой области есть много задач для чистых теоретиков в разных областях науки, для "системных" программистов, для прикладников, и вплоть до конечных программистов "на экселе", в общем, для всех.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38707013
mad_nazgul
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
alexeyvgИМХО в науке постепенно движение идёт. Кстати, "понимание" - это не "алгоритм перевода текста в смысл" :-)
Это может быть, например, что то со стороны ассотиативной памяти. В общем, мозг у нас, думается, не преобразовывает картинки и колебания звуковых волн в смысл по какому то "алгоритму"...


Об этом речь!
Т.к. нет полного понимания как человек думает, то создание мат-модели "мышления" пока не возможно.
А для прямого моделирования мозга "в цифре" мощностей "цифры" пока не хватает.
Есть надежда на "квантовые компьютеры", но там только-только что-то выходит из теоретических изысканий.

А так научить компьютер переводить, даже в контексте, могли еще с начала 90-х.
Т.е. техническую документацию еще в 90-х могли переводить вполне сносно.
А вот художественную литературу - нет. С тех пор с художественным переводом мало что изменилось.
Да - перевод стал точнее, но для окончательной "доводки" все равно нужен человек.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38707668
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
mad_nazgulТ.к. нет полного понимания как человек думает, то создание мат-модели "мышления" пока не возможно.

Ну, для примитивного логического вывода типа логического вывода в исчислении предикатов первого порядка компьютеры все-таки способны (вспомним экспертные системы).
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38707762
mad_nazgul
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114mad_nazgulТ.к. нет полного понимания как человек думает, то создание мат-модели "мышления" пока не возможно.

Ну, для примитивного логического вывода типа логического вывода в исчислении предикатов первого порядка компьютеры все-таки способны (вспомним экспертные системы).

С этим я не спорю.
Но это такой примитив.
Даже ЯП такие были, например Prolog.
Но не взлетело.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38708519
Sheraton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
И хочется вам господа, обсуждать пустое... демагогию разводить.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38708586
prog123
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Martin114,

Пишите код, о будущем - потом.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38710038
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
prog123Martin114,

Пишите код, о будущем - потом.
Тут дело не в коде, тут дело в нахождении задачи компьютерной лингвистики, которую можно было бы решить, а решение опубликовать в сборнике "Компьютерная лингвистика" конференции Диалог .
А для этого нужно хотя бы почитать книжки из магистерского курса "Компьютерная лингвистика", скажем НИУ ВШЭ . А для этого требуется время - годик или два. Вот я и решил узнать, может кто занимался КЛ, стоит ли игра свеч или же следует заняться чем-то другим, например, Big Data (как советуют некоторые умные люди).
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38710084
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114...тут дело в ... задачи ....а решение опубликовать
...книжки из магистерского курса "Компьютерная лингвистика", скажем НИУ ВШЭ... А для этого требуется время - годик или два....
Большой ученый детектед.

Даже ЯП такие были, например Prolog.
Но не взлетело.

Почему не взлетеле?
http://www.pdc.com
http://www.visual-prolog.com

Вроде живы до сих пор. Т.ч. летают. При этом, в прямом смысле, PDC авиакомпании окучивает. Другое дело, что летают низенко-низенко )))
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38710212
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> дело в нахождении задачи компьютерной лингвистики

Таких задач - вагон. Исчезающе мало коммерчески привлекательных задач с относительно простым решением.

> Big Data (как советуют некоторые умные люди)

Кто советует?

Big Data - интересно при ориентации на зарубежные рынки, но там своих разработчиков хватает. Также интересны независимые проекты, но дело это затратное и геморройное.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38710348
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
guest_20040621> дело в нахождении задачи компьютерной лингвистики

Таких задач - вагон. Исчезающе мало коммерчески привлекательных задач с относительно простым решением.
Значит, будем думать.
guest_20040621> Big Data (как советуют некоторые умные люди)

Кто советует?

Big Data - интересно при ориентации на зарубежные рынки, но там своих разработчиков хватает. Также интересны независимые проекты, но дело это затратное и геморройное.
Одна знакомая девушка, которая имеет очень большой опыт работы в IT. Вроде бы она присутствует на этом форуме. Кстати, в нашем городе представлены компании из группы компаний АйТи, а АйТи собирается вести НИОКР в Сколково в области Big Data ( читать здесь ).
Leonid KudryavtsevMartin114...тут дело в ... задачи ....а решение опубликовать
...книжки из магистерского курса "Компьютерная лингвистика", скажем НИУ ВШЭ... А для этого требуется время - годик или два....
Большой ученый детектед.
Не, совсем никакой. :) Но амбиции есть. Когда будет работающая идея, будет и код. Но чтобы выработать эту идею, нужно очень много поработать, так как есть люди, которые работают в КЛ десятилетия, и их мало чем можно удивить.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38710356
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> Значит, будем думать.

Здесь как бы не о чем думать: либо вы видите эти задачи, либо нет. Если не видите, - нужно что-то менять.

> Одна знакомая девушка, которая имеет очень большой опыт работы в IT.

Опыт - фейк. Можно всю жизнь протирать штаны за неплохое бабло и не сделать ничего полезного.

> собирается вести НИОКР в Сколково

А, так вы рекламный агент? Если так, то напрасно тратите время: здесь очень неохотно ведутся на рекламу, пиар и провокации.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38710388
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
guest_20040621>
> Одна знакомая девушка, которая имеет очень большой опыт работы в IT.

Опыт - фейк. Можно всю жизнь протирать штаны за неплохое бабло и не сделать ничего полезного.

Ну, она штаны не протирала, она плотно и много работала. Но у нее свой горизонт видения задач и проблем в IT, у меня свой. У присутствующих здесь форумчан, как аналитиков IT - свой.
guest_20040621>
> собирается вести НИОКР в Сколково
А, так вы рекламный агент? Если так, то напрасно тратите время: здесь очень неохотно ведутся на рекламу, пиар и провокации.
Нет, я не рекламный агент, я просто хотел сказать, что работы в области Big Data ведутся не только за рубежом, но и у нас, в России. Почему Big Data в отличие от компьютерной лингвистики? Потому что Big Data - это насущная потребность сегодня, а КЛ - в основном ориентировано на будущее.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38710391
prog123
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Маркетинговая трескотня с новомодными словами - разводилово на деньги лохов:) Погуглите про " проблему " 2000-го года , которой в свое время все уши прожужжали, не гнушались и самые именитые и маститые
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38710443
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> она плотно и много работала

Я рад за вашу знакомую. К сожалению, качество советов у неё... не очень, прямо скажем.

> я просто хотел сказать

Желание просто сказать вдруг ниоткуда не возникает. Рекламировать можно не только товары и услуги, но и виртуальную реальность. Надеюсь, эта работа по крайней мере хорошо оплачивается, поскольку ничего полезного вам или обществу она не несёт.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38710588
LSV
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
prog123Маркетинговая трескотня с новомодными словами - разводилово на деньги лохов:) Погуглите про " проблему " 2000-го года , которой в свое время все уши прожужжали, не гнушались и самые именитые и маститыеЭта проблема была вполне реальна, т.к. существовало огромное кол-во старых систем, н-р на DBF.
Лично наблюдал эту проблему на клиперовской проге в 200х гг. В ней приходилось работать в 198х г.
Соотв. все компы были были с такой системной датой. В противном случае нарушалась работа фильтров по дате и вообще работа с датами.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38713469
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
guest_20040621Желание просто сказать вдруг ниоткуда не возникает. Рекламировать можно не только товары и услуги, но и виртуальную реальность. Надеюсь, эта работа по крайней мере хорошо оплачивается, поскольку ничего полезного вам или обществу она не несёт.
Так-то я могу сказать, что и ABBYY является резидентом Сколково, даже получила хорошее финансирование.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38713476
prog123
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
LSVprog123Маркетинговая трескотня с новомодными словами - разводилово на деньги лохов:) Погуглите про " проблему " 2000-го года , которой в свое время все уши прожужжали, не гнушались и самые именитые и маститыеЭта проблема была вполне реальна, т.к. существовало огромное кол-во старых систем, н-р на DBF.
Лично наблюдал эту проблему на клиперовской проге в 200х гг. В ней приходилось работать в 198х г.
Соотв. все компы были были с такой системной датой. В противном случае нарушалась работа фильтров по дате и вообще работа с датами.
Ну это уже вы фантазируете...Какие ваши доказательства?
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38713954
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> Так-то я могу сказать, что и ABBYY является резидентом Сколково, даже получила хорошее финансирование.

Рад за вас. Но и этот факт ничего позитивного действительности не добавляет. Поинтересуйтесь, например, совокупной стоимостью программы "Электронная Россия" и её результатами.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38714467
Sheraton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Фирма ABBYY мошенники, ведут бизнес не честно, по-нашему, по-русски, жульё. Когда-то я купил их англо-русский словарь (ABBYY Lingvo 11), лицензионный, зарегистрировал все как положено, все чисто. Установил на ноут с Windows XP и благополучно пользовался им. До тех пор пока не купил новый ноут с Windows Vista. Переставил на новый ноут все программы, но ABBYY Lingvo 11 не захотел работать под Windows Vista. Я написал в службу поддержки, мол дайте обновление, иначе на висте не запускается. А они мне предложили купить новый словарь, для висты. Как так возможно? Я заплатил деньги и опять должен покупать словарь? Я купил раз в жизни WinRAR и пользуюсь им всю жизнь, вне зависимости от выходов новый операционных систем, 1С-ку базовую купил и так же для работы использую уже больше 10 лет, хотя операционные системы уже сменились аж 4 (Миллениум, Виста, 7-ка и 8-ка). Но никто кроме жуликов ABBYY ни разу не потребовал у меня покупать новую программу, потому, что вышла новая операционная система. После этого случая, я стараюсь не покупать наш отечественный софт, только иностранный, потому, как у нас еще нет культуры ведения бизнеса. Как были наши софтверы барыгами, так ими на всю жизнь и остались.

P.S. А словарь я нашел бесплатный GoldenDict, гораздо лучше продукции ABBYY и работает не только на винде но и на Linux.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38714543
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
guest_20040621Я рад за вашу знакомую. К сожалению, качество советов у неё... не очень, прямо скажем.
Хотите сказать, что компьютерная лингвистика более перспективна, чем работы в Big Data? Или же есть еще более перспективное направление, чем эти оба?
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38714590
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> Хотите сказать

Вообще говоря, я уже сказал всё, что хотел сказать. Интересных задач - в лингвистике, big data, автоматизации и пр. - вагон. Коммерчески привлекательных задач - тоже вполне достаточно. Но для России, к сожалению, это не слишком актуально.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38715448
dbIdol
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
guest_20040621> Хотите сказать

Вообще говоря, я уже сказал всё, что хотел сказать. Интересных задач - в лингвистике, big data, автоматизации и пр. - вагон. Коммерчески привлекательных задач - тоже вполне достаточно. Но для России, к сожалению, это не слишком актуально.
+100500
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38717342
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
mad_nazgulMartin114пропущено...

Ну, для примитивного логического вывода типа логического вывода в исчислении предикатов первого порядка компьютеры все-таки способны (вспомним экспертные системы).

С этим я не спорю.
Но это такой примитив.
Даже ЯП такие были, например Prolog.
Но не взлетело.
Одна знакомая аспирантка (сейчас работает над диссертацией в Питере) занимается так называемой "сильной семантикой" или логической семантикой, т.е. соответствием языковых выражений выражениям логических исчислений. Например, выражение "красный куб находится под синей пирамидкой" переводится в язык исчисления предикатов, где потом с ним можно работать.
Первое, что приходит в голову - это попытаться с помощью логики раскрыть контекст того или иного выражения, чтобы можно было снимать неоднозначности, которые возникают. Например, в выражении "преступник застрелил служанку актрисы, которая стояла на балконе" трудно без контекста выяснить, кто стоял на балконе - служанка или актриса. А современные компьютерные лингвистические системы не позволяют раскрывать контекст выражений.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38717347
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114...а современные компьютерные лингвистические системы не позволяют раскрывать контекст выражений.
Мой мозг тоже не позволяет "раскрывать контекст" в половине статей которые я читаю на rbc.ru, rbc.ua, vz.ru, expert.ru. Когда я пытаюсь понять, что там написано, он просто вскипает.

Мне кажется, тут проблема не с современными компьютерами, а с исходным материалом. Если же к талантам "журналистов" (и к талантам менеджеров, которые похоже такие профессии как "корректор" и "редактор" из штата сотрудников новостного агентства сократили полностью) приделать еще и талант разработчиком "компьютерной лингвистики" - думаю результат будет адский )))

IMHO & AFAIK
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38717585
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> Мой мозг тоже не позволяет "раскрывать контекст" в половине статей которые я читаю на rbc.ru, rbc.ua, vz.ru, expert.ru

Всё просто: вы не то читаете.

> проблема не с современными компьютерами, а с исходным материалом

Никаких проблем: для обычных пользователей он либо недоступен, либо сложен, либо не структурирован.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38717654
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Тем не менее, работы в области логической семантики ведутся (в основном там представлены американские ученые).
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38718811
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
На Хабре этим летом опубликовали статью о Тестирование лингвистических технологий: соревнования по автоматическому разрешению кореферентности и анафоры:
Итак, как и обещали, рассказываем: недавно были подведены итоги соревнований по автоматическому разрешению анафоры и кореферентности. Такие соревнования для русского языка проводились впервые а организовала их команда из ВШЭ-МГУ.

Мы уверены, что среди наших читателей много лингвистов, которые и без нас отлично знают, что такое анафора и кореференция, остальным рассказываем. Один и тот же объект реального мира может упоминаться в тексте несколько раз разными способами. «Вася – миллионер, он хочет купить остров». В этой фразе местоимение «он» и существительное «Вася» относятся к одному человеку (т.е. имеют одного и того же референта). Если система анализа текста понимает, что «он» – это и есть «Вася», значит, она умеет разрешать анафору.

Сложнее, когда Вася появляется в тексте еще несколько раз – например, как «Иванов», «клиент», «глава компании» или «футболист». Тогда речь идет уже не о местоименной анафоре, а о кореферентности именных групп. Задача системы в этом случае – объединить все слова, за которыми скрывается этот человек, в одну кореферентную цепочку. Приведем несколько примеров, а заодно покажем, как это делает наша технология Compreno.

1. Евгений Плющенко – единственный в мире фигурист, который смог завоевать медали четырёх зимних Олимпиад. Свой первый олимпийский опыт спортсмен получил в 2002 году на играх в американском Солт-Лейк-Сити.

За счет синтаксиса система понимает, что «Плющенко» и «фигурист» – одно лицо, потом эта персона объединяется с персоной, выделившейся на «спортсмене» благодаря их связи в семантической иерархии, а вдобавок анафорические правила заменяют в дереве разбора местоимение «свой» этим же «спортсменом». В итоге получается кореферентная цепочка.

2. Даррелл Лэнс Эбботт родился в Арлингтоне (штат Техас), пригороде Далласа и Форт Уорта, в семье музыканта и продюсера Джерри Эбботта. Его отец владел звукозаписывающей студией «Pantego Sound Studios» в Пантего, где Даррелл видел и слышал много блюзовых гитаристов, но после того, как он услышал Эйса Фрэйли из группы «Kiss», он сам захотел начать играть на гитаре.

Здесь система сразу правильно разбирает имя «Даррелл Лэнс Эбботт» на части и потом по частям его идентифицирует. Поэтому у нас НЕ попал в кореферентную цепочку отец Эббота Джерри Эббот – фамилия совпадает, но имя отличается. Зато в следующем предложении система узнает Даррела по имени без фамилии.

3. «Роснефть» может получить контроль над всеми аэропортами Киргизии. Российская компания подписала меморандум о приобретении не менее 51% ОАО «Международный аэропорт Манас». «Новапорт» Романа Троценко, который ранее выступал в качестве партнера «Роснефти» в проекте, вероятнее всего, станет оператором киргизских аэропортов.

Тут снова за счет того, что в семантической иерархии СК “ROSNEFT” является потомком СК “COMPANIES”, Compreno понимает, что во втором предложении тоже идет речь о Роснефти. В этом примере видно, как разрешение кореферентности помогает правильно извлекать участников событий – нам ясно, кто подписал меморандум, хотя в предложении сказано просто «российская компания».
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38719078
alex55555
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mad_nazgulТ.к. нет полного понимания как человек думает, то создание мат-модели "мышления" пока не возможно.
Вы путаете смыслы. Нет никакой связи между конкретной реализацией (человек) и универсальными алгоритмами (мышление). Реализаций может быть миллион, но универсальным алгоритмам всегда можно плевать на "понимание" чего-то там конкретной реализацией (человеком, например).

В общем - мышление вполне моделируемо, человек здесь весьма сбоку, а про невозможно - это вы заблуждаетесь.

Ну и зачинателю темы - вы бы определились с целью вашего вопроса. Если цель что-то вроде мониторинга спроса и настроений для проталкивания вашему начальству "великих идей" от вашего имени, то лучше так и говорить. Иначе именно такая цель будет предполагаться как наиболее вероятная и все ваши усилия по сокрытию истины канут в лету. Под начальством так же можно понимать круг лиц, принимающих вашу диссертацию, идеи для которой вы тут ищите. В общем - скажите всё честно, а то вас явно принимают за стремящегося заработать за чужой счёт.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38719362
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
alex55555... и универсальными алгоритмами (мышление)...

В общем - мышление вполне моделируемо, человек здесь весьма сбоку, а про невозможно - это вы заблуждаетесь....
Вопрос только в том, какое именно мышление нужно реализовывать

Мышление под героином - одно
Под анфитаминами - другое
А залипоны после камня ни с тем ни с другим ничего общего не имеют

Компьютерам до этого пока далеко.

IMHO & AFAIK
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38719466
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
alex55555mad_nazgulТ.к. нет полного понимания как человек думает, то создание мат-модели "мышления" пока не возможно.
Ну и зачинателю темы - вы бы определились с целью вашего вопроса. Если цель что-то вроде мониторинга спроса и настроений для проталкивания вашему начальству "великих идей" от вашего имени, то лучше так и говорить. Иначе именно такая цель будет предполагаться как наиболее вероятная и все ваши усилия по сокрытию истины канут в лету. Под начальством так же можно понимать круг лиц, принимающих вашу диссертацию, идеи для которой вы тут ищите. В общем - скажите всё честно, а то вас явно принимают за стремящегося заработать за чужой счёт.
Цель зачинания темы - выяснить, стоит ли вообще заниматься научной работой в области компьютерной лингвистики (КЛ). Или лучше не тратить время зря, а заняться чем-то другим. Что я сейчас имею в качестве исходных данных? В Москве КЛ занимаются в фирме ABBYY, руководит научной работой Селегей Владимир Павлович. В Москве, Питере и Нижнем Новгороде в ряде вузов открыты кафедры КЛ, что говорит о востребованности специалистов КЛ например, в той же ABBYY. В мире же можно получить понятие о современном состоянии КЛ по MIT-му журналу Computational Linguistics .
С сайта магистерской программы КЛ НИУ ВШЭ я накачал литературу по КЛ, сейчас в свободное от работы время сижу читаю.
Сам я живу в областном центре далее 1000 км от Москвы и боюсь, что мои надежды о том, что меня могут взять на работу в Москву могут оказаться слишком наивными.
Т.е. вопрос треда разбивается на два подвопроса:
1) Настолько ли реальны перспективы и задачи КЛ, что ей стоит заниматься?
2) Настолько ли будут востребованы специалисты в КЛ, что Москва (ABBYY в частности) может взять человека из другого города?
У меня есть повод для оптимизма: моя землячка сейчас пишет диссер по машинному переводу в Питере (ее работа состыкуется с так называемой логической семантикой). Но в Москву ее так и не взяли - ее работа там оказалась не нужна.
Ну, и я возможно немного промахнулся с форумом - здесь в основном IT аналитики, а не специалисты в области КЛ.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38719501
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Чуть не забыл - есть еще конференция по КЛ в России под эгидой ABBYY: Диалог .
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38719533
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Мне кажется в Вашем вопросе много лишних слов:
Martin114выяснить, стоит ли вообще заниматься научной работой

мне кажется главный вопрос. Все остальное уже не нужные детали )))

Martin114открыты кафедры...., что говорит о востребованности специалистов

Как-то логической связи между "открыты кафедры" и "востребованности специалистов" я лично не вижу.
1)
Кафедры уборшиков улиц не открыты, а таджики востребованы
2)
Кафедр много разных бывает. Недавно видел девушку, 2-а высших образования (одно техническое, одно экономическое) - работает администратором в магазине "все по 38"

Есть например специальность "информационные технологии в музейном деле" - Пару лет назад, з.п. старшего научного сотрудника Русского музея в СПб была 8 тыс. рублей в месяц. Специалисты реально востребованы.

Martin114в той же ABBYY

Не знаю, как на самом деле обстоят дела в Abby (там не работаю). Но "не верю" ( C )

Сомневаюсь, что Abby можно причислить к "научной работе"

Все же Abby занимается прикладным софтом. Если параллельно, ряд лиц, занимаются для своего удовольствия "научной работой" и защищают диссертации в свободное от работы время - это их личное дело.

Никто не мешает Вам устроится в ЖЭК уборщиком и параллельно, в свободное от работы время, защищать диссертации по "компьютерной лингвистике". Главное... материала для анализа диалектов настенного русского языка будет завались. Хватит не на одно исследование и лингвиста и для филолога и для историка и для психолога и так далее.

Martin114...
и боюсь, что мои надежды о том, что меня могут взять на работу в Москву могут оказаться слишком наивными.
...

В ЖЭК, уборщиком - возьмут

Martin1141) Настолько ли реальны перспективы и задачи КЛ, что ей стоит заниматься?

Перспективы огромны. Сам же пишешь, кафедры открываются... диссертации пишутся...
[quot Martin114]
2) Настолько ли будут востребованы специалисты....
[quot]
Специалисты с опытом работы - востребованы всегда

Ученые, занимающиеся научной работой, художники, поэты и непризнанные гении - аналогично. Только узок их круг и далеки они от народа. И не все доживают до признания их талантов.

IMHO & AFAIK

Хотите заниматься "научной работой" - занимайтесь
Хотите работать - работайте. Тут обсуждать про перспективы не нужно. Нужно сайт hh.ru отрыть и на работу устроится.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38720315
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Leonid KudryavtsevНе знаю, как на самом деле обстоят дела в Abby (там не работаю). Но "не верю" ( C )

Сомневаюсь, что Abby можно причислить к "научной работе"

Все же Abby занимается прикладным софтом. Если параллельно, ряд лиц, занимаются для своего удовольствия "научной работой" и защищают диссертации в свободное от работы время - это их личное дело.

Вообще-то, как ни странно, в ABBYY тоже занимаются наукой. Есть семинар ABBYY Open , есть конференция Диалог , даже проводятся соревнования по лингвистическим технологиям .

[quot Martin114]1) Настолько ли реальны перспективы и задачи КЛ, что ей стоит заниматься?
Leonid KudryavtsevСпециалисты с опытом работы - востребованы всегда

Ученые, занимающиеся научной работой, художники, поэты и непризнанные гении - аналогично. Только узок их круг и далеки они от народа. И не все доживают до признания их талантов.
Некоторые ученые почему-то живут и занимаются наукой в ABBYY: статья на стр. 604 . :)
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38720428
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114Некоторые ученые почему-то живут

Подозреваю, что ученые предпочитают жить в квартирах, а еще лучше в личном доме. Хотя, многие, в 90-ые их лишились и теперь живут на улице или приютах для бездомных.
Martin114занимаются наукой

Давайте договоримся о терминологии. Что есть "наука" ? Какие атрибутационные признаки достаточны, что бы причислить что нибудь к "заниматься наукой" ?
Martin114в Abby

Про Abby не знаю. Тут нужно смотреть, на какой должности там люди работают и что у них в должностной инструкции написано. Очень сильно сомневаюсь, что в должностной инструкции у них написано "заниматься наукой". Хотя... все может быть...

Посмотрел сборник докладов по Вашей ссылки. Впечатление странное. Единственная статья от Abby от некой Юдиной. Об авторе статьи ни слова - ни научного звания (кандидат наук, доктор, заслуженный деятель России, нобелевский лаурят etc...), ни должности в компании (уборщица? ))) ).

А вообще, так и вспоминается старая мудрость

Кто умеет работать - работает
Кто не умеет - учит
Кто не может ни того ни другого - руководит занимается наукой
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38720449
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А вот, что сама компания Abby считает "исследованиями" ( http://www.abbyy.ru/vacancy/)

Исследования и разработкa

Инженер по тестированию ПО (DataCapture)
Интерфейс-дизайнер
Специалист службы технической поддержки (продукты для разработчиков)
C++ разработчик (Технологии)
Инженер по тестированию ПО (Технологии)
C++ разработчик (PDFTools)
Инженер по тестированию ПО (FineReader)
Заместитель директора продуктового департамента (Headquarters)
Web-аналитик
С++ разработчик без опыта

Но поскольку топикастер C++ не знает (зато он явно ученый с мировым именем в области компьютерной лингвистики), наверное ему нужно смотреть на пункт "начало карьеры"

Начало карьеры

Специалист по работе с клиентами на ресепшн
...

)))
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38720585
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
[quot Leonid Kudryavtsev]Martin114Некоторые ученые почему-то живут
Давайте договоримся о терминологии. Что есть "наука" ? Какие атрибутационные признаки достаточны, что бы причислить что нибудь к "заниматься наукой"?
Наличие публикаций. Это касается любого ученого и "занимающегося наукой". В данном случае, наличие публикаций, которые содержат решение актуальной задачи или идеи, которые можно внедрить в коммерческом софте. В случае с ABBYY желательно опубликоваться здесь .
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38720594
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Leonid KudryavtsevА вот, что сама компания Abby считает "исследованиями" ( http://www.abbyy.ru/vacancy/)

Исследования и разработкa

Инженер по тестированию ПО (DataCapture)
Интерфейс-дизайнер
Специалист службы технической поддержки (продукты для разработчиков)
C++ разработчик (Технологии)
Инженер по тестированию ПО (Технологии)
C++ разработчик (PDFTools)
Инженер по тестированию ПО (FineReader)
Заместитель директора продуктового департамента (Headquarters)
Web-аналитик
С++ разработчик без опыта

Но поскольку топикастер C++ не знает (зато он явно ученый с мировым именем в области компьютерной лингвистики), наверное ему нужно смотреть на пункт "начало карьеры"

Спасибо за ссылку. В ABBYY есть и такая страница: http://www.abbyy.ru/science/
P.S. C++ владею с 1989-го года. :)
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38720651
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Leonid KudryavtsevА вот, что сама компания Abby считает "исследованиями" ( http://www.abbyy.ru/vacancy/)

Исследования и разработкa

Инженер по тестированию ПО (DataCapture)
Интерфейс-дизайнер
Специалист службы технической поддержки (продукты для разработчиков)
C++ разработчик (Технологии)
Инженер по тестированию ПО (Технологии)
C++ разработчик (PDFTools)
Инженер по тестированию ПО (FineReader)
Заместитель директора продуктового департамента (Headquarters)
Web-аналитик
С++ разработчик без опыта

Но поскольку топикастер C++ не знает...
Вообще-то в ABBYY в основном пишут софт не на C++, а на C#. Одна моя знакомая работала так по аутсорсу с ABBYY.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38720657
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник

Свои претензии к публикации их докладов я уже высказал.

Кто такой автор, какая у него должность (если он говорит от лица организации), какие у него научные звания (если он ученый). Ничего нет. С таким же успехом, я могу на ближайшем заборе публиковаться. Или дома, на стенке лифта. Там полно таких публикаций. И так же подписываются "Вася", "Игорек" и так далее.

Т.ч. мне, лично, научной деятельности и публикаций и дома в лифте хватает

Кто верстал сборник докладов конференции Диалог - на мой взгляд должен убится ап стену. Повторюсь матом e#$^#ый п#$^#ц.

P.S.
Нашел только одну ссылку на старый доклад, на конференции EVA. После доклада, указан автор доклада, его должность, "заслуги".
conf.cpic.ru/eva99/rus/Zas2-R/dR2-6.doc
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38720660
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114Вообще-то в ABBYY в основном пишут софт не на C++, а на C#. Одна моя знакомая работала так по аутсорсу с ABBYY.
Ссылка и цитата с сайта Abbyy. Открытые у них вакансии.

Думаю, им лучше знать, на чем они пишут и какие специалисты им нужны )))
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38720730
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Leonid Kudryavtsev

Свои претензии к публикации их докладов я уже высказал.

Кто такой автор, какая у него должность (если он говорит от лица организации), какие у него научные звания (если он ученый). Ничего нет. С таким же успехом, я могу на ближайшем заборе публиковаться. Или дома, на стенке лифта. Там полно таких публикаций. И так же подписываются "Вася", "Игорек" и так далее.

Т.ч. мне, лично, научной деятельности и публикаций и дома в лифте хватает

Кто верстал сборник докладов конференции Диалог - на мой взгляд должен убится ап стену. Повторюсь матом e#$^#ый п#$^#ц.

P.S.
Нашел только одну ссылку на старый доклад, на конференции EVA. После доклада, указан автор доклада, его должность, "заслуги".
conf.cpic.ru/eva99/rus/Zas2-R/dR2-6.doc

На странице 5 этого сборника есть список рецензентов, они отвечают за качество публикаций.
Leonid KudryavtsevКто такой автор, какая у него должность (если он говорит от лица организации), какие у него научные звания (если он ученый). Ничего нет.
О качестве публикации говорит не список регалий автора. За нее отвечает оргкомитет и рецензенты (и список ссылок на нее говорит многое, если он есть). Когда Альберт Эйнштейн опубликовал в "Annalen der physik" свою теорию относительности, он тоже был никем и звать его было никак.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38720765
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Первое решение на базе новой технологии получило название Abbyy Intelligent Search. Оно предназначено для поиска в корпоративных системах и предоставляет результаты поиска с высокой релевантностью, поскольку учитывает не только все формы слов, но и их значения, смысловые связи между словами, расстояние между словами в искомой фразе и контекст употребления, рассказали CNews в Abbyy.

Важной особенностью смыслового анализа документов является тот факт, что в результатах поиска есть возможность фильтровать слова по их значениям. Пользователь может выбрать, хочет ли он найти среди документов, например, слово «fire» в значении «стрелять», «поджигать» или «увольнять».

Второе из представленных решений, Abbyy Intelligent Tagger, автоматически находит в текстах так называемые «сущности» (названия организаций, персон, гео-объекты, даты и денежные суммы) и размещает их в метаданных документа. В результате, информацию в корпоративных хранилищах можно классифицировать, сортировать или фильтровать по какому-либо признаку.

"Используя выявленные сущности, можно качественно улучшить целый ряд организационных процессов, связанных с анализом содержимого и ключевых параметров документов. Например, повысить приоритет обработки документов, поступающих от самых важных клиентов, создать правила для автоматического сбора сведений о клиенте или партнере, оптимизировать маршрутизацию документа по определенным критериям бизнес-процессов, упростить очистку документов от персональных и конфиденциальных данных", — говорят в Abbyy.
Интересно, на этом форуме есть специалисты, которые занимаются корпоративными базами документов? Как они могут оценить вышепредложенные инструменты? Насколько это актуально?
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38720777
alex55555
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114выяснить, стоит ли вообще заниматься научной работой в области компьютерной лингвистики (КЛ)
Если ради денег - наверное не стоит. Работайте программистом, денег будет больше.
Martin114В Москве КЛ занимаются в фирме ABBYY, руководит научной работой Селегей Владимир Павлович. В Москве, Питере и Нижнем Новгороде в ряде вузов открыты кафедры КЛ, что говорит о востребованности специалистов КЛ например, в той же ABBYY. В мире же можно получить понятие о современном состоянии КЛ по MIT-му журналу Computational Linguistics .
Принципиальная востребованность неких технологий должна быть сконвертирована в вашу зарплату. Этим занимаются конторы типа ABBYY или Google. Если вы хотите зарабатывать и при этом ещё и оставаясь в лингвистике (совмещая приятное с полезным), то в конторах типа ABBYY или Google вам предстоит этап "меня должны заметить". Как уж вы им себя разрекламируете - вопрос непростой, можно свои работы им слать, можно в гости ходить, можно резюме с особо умными достижениями отправить. И если на вас в конце концов обратят внимание вас пустят по стандартной цепочке собеседования, когда ихние архитекторы или кто-то вроде того зададутся вопросом - зачем мне в штат этот человек ? Ваша задача на собеседованиях будет состоять в доказательстве вашей ценности, но не только. Архитектору ещё важно быть уверенным, что вы не составите ему конкуренцию, не начнёте вести пропаганду своих идей и другими способами портить ему жизнь. Ну и наконец, если чел из какого-то отдела, куда вас пошлют собеседоваться, решит, что вы можете быть полезны и одновременно в отделе есть вакансия - возможно вам эту вакансию предложат.

Хотя если у вас в области лингвистики есть международно известное имя - с вами могут гораздо более мягкие переговоры вести.

Ну и общее - не путайте науку и бизнес. Бизнесу нужны продажи, а перспективные разработки у них и так есть, западные статьи они читать умеют, на конференциях и прочих мероприятиях информацию собирают, что-то там себе анализируют и и обобщают. Работу же они вам предложат только рутинную, ибо своих архитекторов (ну или как там называют главных учёных) там и так хватает. И даже что бы предложили работу близкую к лингвистике - надо постараться.
Martin1141) Настолько ли реальны перспективы и задачи КЛ, что ей стоит заниматься?
Вопрос в сроках и удачном попадании в нужное место в нужное время. В долговременной перспективе задачи КЛ очень востребованы. А если удачно произведёте впечатления лично на какого-нибудь высокого начальника хоть в ABBYY, хоть в Google - в кратковременной перспективе у вас так же всё будет хорошо.
Martin1142) Настолько ли будут востребованы специалисты в КЛ, что Москва (ABBYY в частности) может взять человека из другого города?
Попробуйте к ним постучаться. В худшем случае - пробежитесь по стандартному кругу собеседований и лично познакомитесь с народом, который как вам кажется занимается наукой. В лучшем случае - могут принять на работу.
Martin114У меня есть повод для оптимизма: моя землячка сейчас пишет диссер по машинному переводу в Питере (ее работа состыкуется с так называемой логической семантикой). Но в Москву ее так и не взяли - ее работа там оказалась не нужна.
Вот видите - важна не работа, но важно понимать, нафига козе баян, то есть - зачем конторе нужны работники. Развивать научные идеи за большие деньги в аббях с гуглами и так полно желающих, а тут вы со своей диссертацией. Вот если бы вы некий прорыв в КЛ организовали или мировым светилом вас признали - тогда да, вас бы востребовали. А просто диссеры писать им нафиг не надо, на то у них связи с кафедрами и прочими заведениями имеются. В общем - это бизнес, а не наука. Их задача быть в курсе, уметь предложить готовые решения из набора опубликованных. А что-то новое ваять им задачи не ставят, ибо с точки зрения бизнеса такую задачу сложно планировать - когда вы открытие сделаете, кто вас знает.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38720779
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Leonid KudryavtsevMartin114Вообще-то в ABBYY в основном пишут софт не на C++, а на C#. Одна моя знакомая работала так по аутсорсу с ABBYY.
Ссылка и цитата с сайта Abbyy. Открытые у них вакансии.

Думаю, им лучше знать, на чем они пишут и какие специалисты им нужны )))
http://www.abbyy.ru/vacancy/17/:
Разработчик C#
Требования:

Уверенное владение C#
Понимание шаблонов проектирования MVC/ MVP
Опыт работы с ASP.NET Web Forms, AJAX
Знание HTML, CSS, Javascript
Знание MS SQL Server 2005/2008: умение спроектировать структуру БД, писать SQL-запросы и хранимые процедуры
Технический английский

Приветствуется:

XML / XSLT
Опыт работы с ASP.NET MVC, WCF, Web Services
Общее представление о LINQ
Опыт работы с Subversion
Опыт коммерческой разработки приложений
Опыт работы в команде.

Обязанности:

Разработка новых и развитие существующих веб-проектов компании на платформе .Net

Условия:

Возможность участвовать в создании интеллектуальных продуктов, популярных во всем мире.

Уникальная корпоративная культура.

Возможность профессионального роста:

Регулярные бесплатные профессиональные и развивающие курсы, доступные всем сотрудникам офиса. Льготные условия на иные специальные курсы и тренинги
50% компенсация курсов английского для всех желающих. Кроме того, в офисе ведутся курсы немецкого, французского, испанского, китайского языков
Компенсация приобретения профессиональной литературы

Комфортная работа:

Гибкий график работы
Отсутствие дресс-кода
Спортивный зал с разнообразными групповыми занятиями
Тренажерный зал
Массажный кабинет
Свежие фрукты в офисе
Свободная атмосфера (комнаты отдыха, спортивные зоны с настольным футболом, теннисом и т.д.)
Корпоративный тариф сотовой связи

Здоровье и благосостояние сотрудников:

Достойная «белая» зарплата
Частичная компенсация оплаты аренды жилья для иногородних сотрудников
Добровольное медицинское страхование для сотрудников и льготные условия оформления добровольного медицинского страхования для членов семьи
Частичная компенсация абонемента в фитнес клуб
Врач в офисе
Программа потребительского кредитования для сотрудников
Дотирование ипотечных кредитов сотрудников
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38720784
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
alex55555 , спасибо за совет, примерно я так и предполагал. Тут два варианта - либо работать специалистом, если нужны деньги или заниматься наукой и работать преподом в вузе, но тогда о больших деньгах нужно забыть. Будем думать.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38725039
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Вот такой вопрос у меня. ABBYY продвигают два решения на базе своей технологии Compreno. Первое решение на базе новой технологии получило название Abbyy Intelligent Search. Оно предназначено для поиска в корпоративных системах и предоставляет результаты поиска с высокой релевантностью, поскольку учитывает не только все формы слов, но и их значения, смысловые связи между словами, расстояние между словами в искомой фразе и контекст употребления.

Важной особенностью смыслового анализа документов является тот факт, что в результатах поиска есть возможность фильтровать слова по их значениям. Пользователь может выбрать, хочет ли он найти среди документов, например, слово «fire» в значении «стрелять», «поджигать» или «увольнять».

Второе из представленных решений, Abbyy Intelligent Tagger, автоматически находит в текстах так называемые «сущности» (названия организаций, персон, гео-объекты, даты и денежные суммы) и размещает их в метаданных документа. В результате, информацию в корпоративных хранилищах можно классифицировать, сортировать или фильтровать по какому-либо признаку.

"Используя выявленные сущности, можно качественно улучшить целый ряд организационных процессов, связанных с анализом содержимого и ключевых параметров документов. Например, повысить приоритет обработки документов, поступающих от самых важных клиентов, создать правила для автоматического сбора сведений о клиенте или партнере, оптимизировать маршрутизацию документа по определенным критериям бизнес-процессов, упростить очистку документов от персональных и конфиденциальных данных", — говорят в Abbyy.

На этом форуме есть специалисты, работающие в области документооборота? Как вы считаете, насколько могут быть востребованы эти два инструмента: поиск документов по смыслу в корпоративных системах и автоматическая классификация документов по определенным заданным признакам?
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38728903
LSV
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Как вы считаете, насколько могут быть востребованы эти два инструмента: поиск документов по смыслу в корпоративных системахВостребованы. Но это вопрос цены и реальных возможностей системы.

Ключевые слова в произвольном документе - не такое простое дело.
Если это деловая графика в заведома неизвестном формате, то кто ее будет парсить на предмет ключевых слов ?
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38747946
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
guest_20040621> она плотно и много работала
Я рад за вашу знакомую. К сожалению, качество советов у неё... не очень, прямо скажем.

Чисто с научной точки зрения она более права, чем я (хотя она - не ученый), хотя бы потому что в области Big Data за рубежом существует солидный журнал "Big Data Research" в издательстве Elsevier ( http://www.journals.elsevier.com/big-data-research/ ), а в области компьютерной лингвистики существует дохлый журналец Computational Linguistics в издательстве MIT Press ( http://www.mitpressjournals.org/loi/coli ).
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38748093
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> Чисто с научной точки зрения она более права

Вы наукой собираетесь заниматься или вас вакансия в конкретной лавке по-прежнему интересует? Побуду КО: это никак не связанные вещи.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38754071
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
guest_20040621> Чисто с научной точки зрения она более права

Вы наукой собираетесь заниматься или вас вакансия в конкретной лавке по-прежнему интересует? Побуду КО: это никак не связанные вещи.
В данном случае имелась в виду наука. Причем в общемировом плане.
Связь тут имеется такая: можно работать и преподавать в вузе, который готовит специалистов для конкретной лавки.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38754769
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Почему не во всегалактическом ?

У Вас какое странное понятие о науке IMHO, по крайне мере не совпадающее с моим ))). Работать в какой-то _прикладной_ области, параллельно ездить по конференциям и публиковаться - никто не мешает. Соберете достаточно материала (наработок) для монографии и диссертации... защититесь... надеюсь, зарплаты за _свой_ счет купить пару бутылок коньяка для диссертационного совета хватить )))

IMHO
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38754969
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> В данном случае имелась в виду наука. Причем в общемировом плане.

В таком случае я бы порекомендовал вам начать с приведения самооценки к адекватному уровню. Пространные рассуждения на совершенно непрофильном ресурсе исчерпывающе полно говорят и о профессиональной подготовке, и об уровне обсуждения.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38761349
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
LSVКак вы считаете, насколько могут быть востребованы эти два инструмента: поиск документов по смыслу в корпоративных системахВостребованы. Но это вопрос цены и реальных возможностей системы.

Ключевые слова в произвольном документе - не такое простое дело.
Если это деловая графика в заведома неизвестном формате, то кто ее будет парсить на предмет ключевых слов ?
Речь идет не о поиске ключевых слов, а о поиске по значениям и смыслам слов в тексте. Например, если задать для поиска слово "автомобиль", то такая система должна будет искать и по его синонимам "машина", "транспортное средство" и т.д.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38761352
caballero
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
программы не понимают никаких "смыслов"
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38761478
BagaBaga
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Leonid KudryavtsevУ Вас какое странное понятие о науке IMHO, по крайне мере не совпадающее с моим ))). Работать в какой-то _прикладной_ области, параллельно ездить по конференциям и публиковаться - никто не мешает. Соберете достаточно материала (наработок) для монографии и диссертации... защититесь... надеюсь, зарплаты за _свой_ счет купить пару бутылок коньяка для диссертационного совета хватить )))


Леонид, у вас какой-то идеальный работодатель - готовый на недельку отпустить вас ездить по конференциям. И так несколько раз в год. Ну и наработок маловато будет. Там ещё должна быть кучка публикаций в журналах из перечня ВАК. А потом ведущая организация, пара оппонентов... ну и поехало :)
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38761939
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
caballeroпрограммы не понимают никаких "смыслов"
Товарисчи из ABBYY разработали систему Compreno, которая претендует на то, чтобы "понимать смысл".
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38762124
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
BagaBagaЛеонид, у вас какой-то идеальный работодатель - готовый на недельку отпустить вас ездить по конференциям. И так несколько раз в год. Ну и наработок маловато будет. Там ещё должна быть кучка публикаций в журналах из перечня ВАК. А потом ведущая организация, пара оппонентов... ну и поехало :)

Ну во первых:

1.1. если тема научных интересов совпадает с профилем деятельности фирмы... тут не "отпустить ездить по конференциям", а за счет фирмы в командировку делать доклады на конференциях.
1.2 "на недельку" - вроде, по закону, отпуск 20 рабочих дней. Странно, что есть проблема "на недельку" куда-то поехать.

2. что такое "ведущая организация" просто не знаю

3. "пара оппонентов" - Когда жена (бывшая) защищала кандидатскую, проблем с оппонентами не было. Дабы. см. пункт 1, необходимое кол-во людей с которыми пили алкоголь на конференциях вполне на оппонентов годились. Проблема была только написать отзывы. Т.к. ряд оппонентов посчитал, что их функция состоит исключительно в том, что бы готовый отзыв подписать, а жена тоже ни фига отзывы не написала.... т.ч. опоненты обломились... пришлось диссертацию читать и честно оппонировать )))

После защиты кандидатской, когда пошли разговоров о докторской, было не менее 5 (ПЯТИ) ПРАКТИЧЕСКИХ тем по которым ее можно написать. Мало того, за которые бы еще и заплатили и/или нашли бы источники финансирования. В том числе и набрать девочек (научный коллектив))) ) которые бы в архива необходимые материалы обрабатывали и выполняли прочею техническую работу.

+ было и предложение за деньги переработать материалы кандидатской, написать и издать книгу.

Но жена сказала, что ей науки хватит и она хочет отдохнуть )))
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38762130
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38762376
caballero
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
авторТоварисчи из ABBYY разработали систему Compreno, которая претендует на то, чтобы "понимать смысл".
"Претендовать" можно на что угодно. Пока нет у программы сознания как у человека до тех пор она не будет понимать смысл - будет чистая математика - решение статичтических задач по оптимизации и вероятностям
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38762480
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> сознания как у человека

Думаете, среднестатистический человек понимает смысл? Наивный. Человек - набор комплексов и заблуждений.

> решение статичтических задач по оптимизации и вероятностям

И это очень хорошо. Есть проблемы с анализом особенностей изложения и контекстом интерпретации в том смысле, что существует куча факторов, которые может потребоваться учитывать. Но сам по себе формальный анализ - великолепная основа для оценок.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38762531
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
caballeroавторТоварисчи из ABBYY разработали систему Compreno, которая претендует на то, чтобы "понимать смысл".
"Претендовать" можно на что угодно. Пока нет у программы сознания как у человека до тех пор она не будет понимать смысл - будет чистая математика - решение статистических задач по оптимизации и вероятностям
Решение статистических задач по оптимизации и вероятностям не обязательно. Достаточно иметь хорошего филолога со знанием лексической семантики и хорошего программиста. Система Compreno - это как раз попытка программно реализовать семантические наработки ABBYY (подробнее см. здесь: http://www.3dnews.ru/software/624398 ).
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38762573
caballero
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114,

не сомневаюсь в крутых наработках но к смыслу это не имеет отношения. Семантические связи - та же математика - выбор апарата сути дела не меняет.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38762588
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114...Достаточно иметь хорошего филолога со знанием лексической семантики и хорошего программиста...
Блажен кто верует.
Еще 20 000 ведер и золотой ключик у нас в кармане ( C )

из ссылке...О серьезности намерений ABBYY.... многолетний труд более чем трехсот сотрудников компании ... 475 млн рублей, что составляет половину финансирования проекта ...

Дальше не читал - просто не интересно.
====
Помню, в свое время ряд деятелей продвигали хрень "тезаурус Гарнье". С помощью которой надеялись описать то, что изображено на картине. Что бы по данному описанию можно было искать.... там много было интересных вещей, но самое крутое это "крик"....

Вот Вам интересное и нужное направление "научной деятельности" и " компьютерной лингвистики". Вроде проект Минерва радостно продолжается, EU до сих пор его финансирует... Можете свою посильную помощь внести. А то, подозреваю, за прошедшие 10 лет вряд ли дальше "тезауруса Гарнье" с "криком" дело продвинулось.

Правда интересно еще посмотреть, что авторы JPEG 2000 наворотили. Они без всякой лингвистики предлагали поиск по похожести сделать.

Первая попавшаяся статься 2001 по проблеме
http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2001/part2/KM
Минерва
http://www.minervaplus.ru/about_mp/mec_1.htm
Крик
http://lurkmore.to/Крик
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38765039
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Тем не менее, кое-какие успехи у ABBYY есть. Они разработали машинный переводчик на базе Compreno с качеством перевода лучше, чем у Google Translate.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38766246
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Leonid Kudryavtsevиз ссылке...О серьезности намерений ABBYY.... многолетний труд более чем трехсот сотрудников компании ... 475 млн рублей, что составляет половину финансирования проекта ...

Дальше не читал - просто не интересно.
====
Помню, в свое время ряд деятелей продвигали хрень "тезаурус Гарнье". С помощью которой надеялись описать то, что изображено на картине. Что бы по данному описанию можно было искать.... там много было интересных вещей, но самое крутое это "крик"....

Вот Вам интересное и нужное направление "научной деятельности" и " компьютерной лингвистики". Вроде проект Минерва радостно продолжается, EU до сих пор его финансирует... Можете свою посильную помощь внести. А то, подозреваю, за прошедшие 10 лет вряд ли дальше "тезауруса Гарнье" с "криком" дело продвинулось.

Правда интересно еще посмотреть, что авторы JPEG 2000 наворотили. Они без всякой лингвистики предлагали поиск по похожести сделать.

Первая попавшаяся статься 2001 по проблеме
http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2001/part2/KM
Минерва
http://www.minervaplus.ru/about_mp/mec_1.htm
Крик
http://lurkmore.to/Крик
Распознавание образов здесь не сгодится? Забабашить нейросеть, обучить ее, на выходе - требуемый ответ...
Кстати, IBM разработала нейрочип с миллионом нейронов для подобных целей.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38766554
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114Распознавание образов здесь не сгодится? Забабашить нейросеть, обучить ее, на выходе - требуемый ответ...
Кстати, IBM разработала нейрочип с миллионом нейронов для подобных целей.
Может и сгодится. Частично. Х.з.

1. В конце 90-х, когда я с этим сталкивался, таких коммерческих технологий еще не существовало. Но что-то пытались сделать. Например появлялся Jpeg-2000 где распознавание образов обещалось.
2. Задача не только "найти похожее". Задача придумать внятные правила описания иконографии. Что, в любом случае, необходимо. И для научного поиска и для оформления юридических документов.

Т.ч. проблема не только компьютерная, но в большей мере и лингвистическая (хотя точно не знаю, что значит термин лингвист), и культурологическая, и искусствоведческая и так далее, в том числе даже и юридическая.

Боюсь "крик" ни один нейрочип не найдет )))
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38781125
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
caballero"Претендовать" можно на что угодно. Пока нет у программы сознания как у человека до тех пор она не будет понимать смысл - будет чистая математика - решение статичтических задач по оптимизации и вероятностям
Ребята из ABBYY заявляют, что
Compreno представляет собой технологию синтаксического и семантического анализа текста, которая опирается на универсальную для всех языков иерархию понятий и модель отношений между этими понятиями, говорят в Abbyy. В основе Compreno лежит универсальное дерево семантических понятий, которое обеспечивает понимание и анализ текстов на основе их смыслов , а не просто визуального представления.

Первое решение на базе новой технологии получило название Abbyy Intelligent Search. Оно предназначено для поиска в корпоративных системах и предоставляет результаты поиска с высокой релевантностью, поскольку учитывает не только все формы слов, но и их значения, смысловые связи между словами, расстояние между словами в искомой фразе и контекст употребления , рассказали CNews в Abbyy.

Важной особенностью смыслового анализа документов является тот факт, что в результатах поиска есть возможность фильтровать слова по их значениям. Пользователь может выбрать, хочет ли он найти среди документов, например, слово «fire» в значении «стрелять», «поджигать» или «увольнять».

Второе из представленных решений, Abbyy Intelligent Tagger, автоматически находит в текстах так называемые "сущности" (названия организаций, персон, гео-объекты, даты и денежные суммы) и размещает их в метаданных документа. В результате, информацию в корпоративных хранилищах можно классифицировать, сортировать или фильтровать по какому-либо признаку.

"Используя выявленные сущности, можно качественно улучшить целый ряд организационных процессов, связанных с анализом содержимого и ключевых параметров документов. Например, повысить приоритет обработки документов, поступающих от самых важных клиентов, создать правила для автоматического сбора сведений о клиенте или партнере, оптимизировать маршрутизацию документа по определенным критериям бизнес-процессов, упростить очистку документов от персональных и конфиденциальных данных", — говорят в Abbyy.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38781423
mad_nazgul
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114Распознавание образов здесь не сгодится? Забабашить нейросеть, обучить ее, на выходе - требуемый ответ...
Кстати, IBM разработала нейрочип с миллионом нейронов для подобных целей.
Так она (нейросеть) плохо работает.
Т.е. точность распознавания не лучше, чем у эвристических алгоритмов.
Как площадка для экспериментов - да.
Как промышленное решение - нет.
Пока не будет разработана принципиально иная "схемотехника" для нейронных сетей, она будет проигрывать.
Есть надежда на квантовые компьютеры... но пока там все глухо.
Похоже наткнулись на какую-то техническую проблему.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38782351
Фотография sobolev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114Ребята из ABBYY заявляют, что...

Офигенная концепция. Именно то, что нужно. Конкретно с compreno есть проблема - эта штука не работает. Ну, то есть, инвестиции конечно получены и даже работа проведена большая, но результата, хотя бы маленького, нет.
Но если абстрагировать от abbyy и compreno, то направление абсолютно верное: семантическая сеть, построенная на универсальных понятиях. Скажем, упомянутое "fire": нам нужны просто метапонятия "стрелять", "поджигать", "увольнять". Символ "fire" соответствует любому из этих понятий - ну и пусть. Дальше - дело техники: hi will fire my house будет переведено в множество возможных вариантов, которые вероятностным анализом в результате сойдутся в одном единственном. Пускай в двух - общий контекст (тема топика, форума, жанр книги, ...) все равно сведет все к единственному смыслу. Идея в том, что слова не существуют в пустоте - контекст всегда есть. И он чаще всего может быть формализован. Это - тоже не простая задача, но, в целом, понятно что с ней делать.
зы. топик не читал, но имхо таково.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38782679
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
sobolevhi will fire my house будет переведено...
"привет запустит мой дом" ? ( C ) http://www.translate.ru/
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38783399
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
sobolevКонкретно с compreno есть проблема - эта штука не работает. Ну, то есть, инвестиции конечно получены и даже работа проведена большая, но результата, хотя бы маленького, нет.
Кто его знает, если довести compreno до ума, может быть результат будет.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38787100
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Leonid KudryavtsevMartin114...Достаточно иметь хорошего филолога со знанием лексической семантики и хорошего программиста...
Блажен кто верует.
Еще 20 000 ведер и золотой ключик у нас в кармане ( C )
Говорят, что сейчас проблема заключается в недостаточных вычислительных мощностях. Как говорил Владимир Иванович Селегей, научный руководитель проекта машинного перевода в ABBYY, "увольте одного филолога из проекта - получите выигрыш в производительности в 10 раз". :)
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38787669
Фотография BlackGnomeГуест
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114Leonid Kudryavtsevпропущено...

Блажен кто верует.
Еще 20 000 ведер и золотой ключик у нас в кармане ( C )
Говорят, что сейчас проблема заключается в недостаточных вычислительных мощностях. Как говорил Владимир Иванович Селегей, научный руководитель проекта машинного перевода в ABBYY, "увольте одного филолога из проекта - получите выигрыш в производительности в 10 раз". :)

Эту мульку повторяют из презентации в презентацию, народ умудряется своими экстенсивными методиками подпадать под гранты фонда Бортника, много бла-бла-бла, но выше т.н. семантического анализа никто не забирается, надо верно задачи формулировать чтоб комфортно жилось. На самом деле, рядовой честный человек на этом пути обязательно наткнётся на броблемы общей когнетивной теории. Ну, это примерно те проблеиы, который на западе пиндосы успели озадачиться лет так 30 назад. Поэтому, если тупо начать с графематического анализа, можно коньки отбросить, прежде чем на твоём борту робот Ромми, скажет тебе "Здравствуй, дружок!" Общая эпистемологическая проблема западной традиции заключается в том, что каждая из наук (Философия, Психология, Лингвистика, Антропология, ИИ) долгое время развивались ьбез особого влияния друг на дружку. Поэтому, когда на соцфаке МГУ мистор Ван Дейк начинает что то рассказывать, даже та половина, которая что то петрип в инглише смотрит на него как баран на новые ворота.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38793738
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
sobolevMartin114Ребята из ABBYY заявляют, что...

Офигенная концепция. Именно то, что нужно. Конкретно с compreno есть проблема - эта штука не работает. Ну, то есть, инвестиции конечно получены и даже работа проведена большая, но результата, хотя бы маленького, нет.
Результаты приведены например здесь:
ABBYY Для оценки возможностей системы ниже представлен пример перевода кусочка статьи Google's «Babel fish» heralds future of translation средствами статистического переводчика и платформы ABBYY. Комментарии, как говорится, излишни.

Исходник:

If we tried manually to give the system those languages, it would be a hopeless task. The only possible way we could do this is to harness the power of machine computation. We build statistical models that are automatically training themselves and learning all the time.

ABBYY Compreno:

Если бы мы попытались вручную дать системе те языки, это было бы безнадёжной задачей. Единственный возможный способ, которым мы могли бы сделать это, состоит в том, чтобы использовать силу машинного вычисления. Мы создаём статистические модели, которые автоматически обучаются и учатся всё время.

Статистический переводчик:

Если бы мы попытались вручную, чтобы дать системе этих языков, то было бы безнадежной задачей. Единственно возможным путем мы могли бы сделать это, чтобы использовать возможности машины вычислений. Мы строим статистические модели, которые автоматически обучение себя и учитесь все время.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38799293
Sheraton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я думаю скоро компьютерная лингвистика, будет бороздить просторы вселенной.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38802501
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
В команде ABBYY в России работают аспиранты, доценты, 31 кандидат наук и 3 доктора наук. ( отсюда )
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38802865
Sheraton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114В команде ABBYY в России работают аспиранты, доценты, 31 кандидат наук и 3 доктора наук. ( отсюда )

У нас в России всегда так. Мы выигрываем олимпиады по программированию, но путных программ не создаем.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38807472
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
SheratonЯ думаю скоро компьютерная лингвистика, будет бороздить просторы вселенной.
Программа смогла написать газетную статью лучше, чем журналист - статья 2011-го года.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38807569
Sheraton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114SheratonЯ думаю скоро компьютерная лингвистика, будет бороздить просторы вселенной.
Программа смогла написать газетную статью лучше, чем журналист - статья 2011-го года.

Я думаю такую программу может написать даже школьник.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38807625
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> Программа смогла написать газетную статью лучше, чем журналист - статья 2011-го года.

Это не совсем обычная статья. Это отчёт, шаблон которого вполне формализуем. Таких шаблонов можно придумать кучу - от анализа фондового/валютного/долгового и пр. рынков до прогноза погоды. Что, в общем, и делается.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38815082
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
SheratonЯ думаю скоро компьютерная лингвистика, будет бороздить просторы вселенной.
Разработана система IBM Watson, основанная на статистической обработке документов.
IBM Watson — суперкомпьютер фирмы IBM, оснащённый вопросно-ответной системой искусственного интеллекта, созданный группой исследователей под руководством Дэвида Феруччи. Его создание — часть проекта DeepQA. Основная задача Уотсона — понимать вопросы, сформулированные на естественном языке, и находить на них ответы в базе данных
В феврале 2011 года суперкомпьютер принял участие в телешоу Jeopardy! (российский аналог — «Своя игра»)[3]. Его соперниками были Брэд Раттер — обладатель самого большого выигрыша в программе, и Кен Дженнингс — рекордсмен по длительности беспроигрышной серии. Компьютер одержал победу, получив 1 млн долларов, в то время, как Дженнингс и Раттер получили, соответственно, по 300 и 200 тысяч.
Watson состоит из 90 серверов IBM p750, каждый из которых оснащён четырьмя восьмиядерными процессорами архитектуры POWER7. Суммарная оперативная память — более 15 терабайт.

Система имела доступ к 200 млн страниц структурированной и неструктурированной информации объёмом в 4 терабайта[4], включая полный текст Википедии. Во время игры Watson не имел доступа к интернету.

Компания IBM анонсировала новые проекты по использованию возможностей IBM Watson и когнитивных вычислительных технологий. IBM Watson – инновационная платформа, которая лежит в основе новой эры вычислений благодаря способности понимать естественные языки, а также обрабатывать огромные массивы больших данных с целью извлечения ценной информации и дальнейшего самообучения.

IBM продолжает развивать технологию Watson по всему миру и рада поделиться следующими новостями:

• На сегодняшний день IBM работает с заказчиками из 25 стран, расположенными на шести континентах; список стран включает ЮАР, Австралию, Великобританию, Таиланд, Канаду и США;
• Watson приступил к изучению испанского языка в рамках партнерства с CaixaBank;
• Компании-партнеры IBM Watson представляют новые приложения на базе Watson для сфер туризма, розничной торговли, ИТ-услуг, здравоохранения и некоммерческого сектора;
• IBM открывает штаб-квартиру Watson Group в районе «Кремниевая аллея» г. Нью-Йорк, а также пять новых клиентских центров Watson по всему миру.

«Watson является движущей силой новой эры вычислений, помогая организациям по всему миру запускать новые проекты, определять целевые рынки и трансформировать целые отрасли, – прокомментировал Майк Родин (Mike Rhodin), старший вице-президент IBM Watson Group. – Более того, Watson лежит в основе создания новых рынков и целой экосистемы, в которую входят наши заказчики, партнеры, разработчики, венчурные компании, университеты и их студенты. Судьба нового поколения инноваций находится в руках тех, кто ищет связи в разрозненных и не очевидных массивах данных с помощью Watson».
Отсюда: Вики , Хабр.
Существует также другая система ответа на вопросы, www.wolframalpha.com . В отличие от Watson, который основан на статистической обработке документов, Wolfram Aplha работает со знаниями: запрос он переводит в логический запрос, после чего производит вычисления. Сравнение IBM Watson и Wolfram Alpha приведено здесь:

Так что, несмотря на скептицизм, работа в области NLP - Natural Language Processing идет.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38815090
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
авторПредставители компаний IBM и WellPoint провели совместную конференцию, на которой объявили о начале коммерческой эксплуатации медицинской системы IBM Watson. Шесть экземпляров IBM Watson уже «трудоустроены» в больницы США в качестве врачей-диагностов.

За два года учёбы Watson изучил 605 тыс. медицинских документов, в общей сложности 2 миллиона страниц текста. Перед началом врачебной практики компьютер проанализировал 25 тыс. историй болезни и проработал 14,7 тыс. для тонкой настройки алгоритмов. С целью пополнения базы знаний компания IBM заключила соглашение с одним из ведущих центров изучения рака Memorial Sloan Kettering, где собран огромный архив медицинской информации. Watson способен не только ставить диагнозы, но и определять наиболее оптимальный курс лечения. Во многих случаях показывает точность диагностики лучше, чем врачи-люди.

Представитель компании WellPoint на пресс-конференции привёл такой пример. Точность назначения оптимального лечения после диагностирования рака лёгких в больницах США составляет 50%. То есть в половине случаев врачи рекомендуют не самый идеальный курс лечения и препаратов. Так вот, у компьютера IBM Watson точность назначения оптимального лечения составляет 90%. При расчёте он учитывает малейшие нюансы из медицинской карты больного и его генетическую информацию. Лечащий врач может со своего iPad вносить дополнительную информацию в компьютерную систему Watson в текстовом виде, например, написать «у пациента появилась кровь в мокроте при отхаркивании» — компьютер поймёт сказанное и через 30 секунд выдаст уточнённый диагноз и обновлённый курс лечения.
Хабр
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38815182
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Все это хорошо, но интересно, как обстоят дела с точки зрения закона.

когда пациент из-за неверного диагноза умрет, кто сидеть будет?

Когда у процессора ножка за ножку закоротит, то кто по статьям УК РФ 118, 293 и пр. отвечать будет?
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38815326
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Leonid KudryavtsevВсе это хорошо, но интересно, как обстоят дела с точки зрения закона.

когда пациент из-за неверного диагноза умрет, кто сидеть будет?

Когда у процессора ножка за ножку закоротит, то кто по статьям УК РФ 118, 293 и пр. отвечать будет?
Можно просчитать надежность работы системы, вероятность ошибки из-за технического сбоя, вероятность ошибки алгоритма и вероятность ошибки врача-человека. Если сумма первых двух меньше третьего - то можно делать вывод о годности системы к работе.
И вовсе необязательно исключать человека из цепочки принятия решений - последнее слово может оставаться за человеком (или консилиумом врачей).
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38815356
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Извиняюсь, неправильно ввел ссылку:
Martin114SheratonЯ думаю скоро компьютерная лингвистика, будет бороздить просторы вселенной.
Разработана система IBM Watson, основанная на статистической обработке документов.
Существует также другая система ответа на вопросы, www.wolframalpha.com . В отличие от Watson, который основан на статистической обработке документов, Wolfram Aplha работает со знаниями: запрос он переводит в логический запрос, после чего производит вычисления. Сравнение IBM Watson и Wolfram Alpha приведено здесь: http://blog.stephenwolfram.com/2011/01/jeopardy-ibm-and-wolframalpha/
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38815360
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Martin114Leonid KudryavtsevВсе это хорошо, но интересно, как обстоят дела с точки зрения закона.

когда пациент из-за неверного диагноза умрет, кто сидеть будет?

Когда у процессора ножка за ножку закоротит, то кто по статьям УК РФ 118, 293 и пр. отвечать будет?
Можно просчитать надежность работы системы, вероятность ошибки из-за технического сбоя, вероятность ошибки алгоритма и вероятность ошибки врача-человека. Если сумма первых двух меньше третьего - то можно делать вывод о годности системы к работе.
И вовсе необязательно исключать человека из цепочки принятия решений - последнее слово может оставаться за человеком (или консилиумом врачей).
Опять извиняюсь, опять наврал с теорией вероятности: нужно перемножить вероятность безотказной работы суперкомпьютера и вероятность безошибочной работы алгоритма и сравнить с вероятностью правильного диагноза врача-человека (или консилиума врачей).
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38815412
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114...то можно делать вывод о годности системы к работе...
Лично Вы разрешаете? Можно на Вас официально сослаться? Т.е. сидеть Вы согласны?

Только не понимаю, почему в данном форуме от Вас вопрос о работе был. Странный Вы человек, в наше время, при Ваших талантах еще и думать о работе. Если будет нужна работа - обращайтесь, должность председателя я Вам найду )))

- Вам не нужен председатель? - спросил Фунт.

- Какой председатель? - воскликнул Бендер.

- Официальный. Одним словом, глава учреждения.

- Я сам глава.

- Значит, вы собираетесь отсиживать сами? Так бы сразу сказали. Зачем же вы морочите мне голову уже два часа?

Старик в пасхальных брюках разозлился, но паузы между фразами не уменьшились.

- Я - Фунт, - повторил он с чувством. - Мне девяносто лет. Я всю жизнь сидел за других. Такая моя профессия - страдать за других.

- Ах, вы подставное лицо?

- Да, - сказал старик, с достоинством тряся головой. Я - зицпредседатель Фунт. Я всегда сидел. Я сидел при Александре Втором "Освободителе", при Александре Третьем "Миротворце", при Николае Втором "Кровавом".

И старик медленно загибал пальцы, считая царей.

- При Керенском я сидел тоже. При военном коммунизме я, правда, совсем не сидел, исчезла чистая коммерция, не было работы. Но зато как я сидел при нэпе! Как я сидел при нэпе! Это были лучшие дни моей жизни. За четыре года я провел на свободе не больше трех месяцев. Я выдал замуж внучку, Голконду Евсеевну, и дал за ней концертное фортепьяно, серебряную птичку и восемьдесят рублей золотыми десятками. А теперь я хожу и не узнаю нашего Черноморска. Где это все? Где частный капитал? Где первое общество взаимного кредита? Где, спрашиваю я вас, второе общество взаимного кредита? Где товарищество на вере? Где акционерные компании со смешанным капиталом? Где это все? Безобразие!

Эта короткая речь длилась сравнительно недолго - полчаса. Слушая Фунта, Паниковский растрогался. Он отвел Балаганова в сторону и с уважением зашептал:

- Сразу видно человека с раньшего времени. Таких теперь уже нету и скоро совсем не будет. И он любезно подал старику кружку сладкого чай. Остап перетащил зицпредседателя за свой начальнический стол, велел закрыть контору и принялся терпеливо выспрашивать вечного узника, отдавшего жизнь за "други своея". Зицпредседатель говорил е удовольствием. Если бы он не отдыхал так долго между фразами, можно было бы даже сказать, что он трещит без умолку.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38815522
Фотография softwarer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Leonid KudryavtsevВсе это хорошо, но интересно, как обстоят дела с точки зрения закона.
когда пациент из-за неверного диагноза умрет, кто сидеть будет?
Никто сидеть не будет в любом случае. Сидеть будут за неверное информирование (то есть, например, если пациенту говорят "вылечим 100%" ради того, чтобы он пошёл лечиться). Если же ему честно говорят, что шансы пятьдесят на пятьдесят, и подсовывают на подпись документ с галочкой, то проблем не будет ни у врачей, ни у компьютеров.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38815543
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Не являюсь юристом и не являюсь знатоком законодательства в медицинской сфере. А тем более его выполнения или, точнее, не выполнения в данной стране (т.к. по поводу возможности применения некоторых пунктов УК РФ узнавал, юристами было сказано "пункт такой есть, но заставить нести ответственность по нему фактически не возможно").

Но подозреваю, что такое законодательство есть, и очень интересно как "лечение прописывает компьютер" отражается в действующем законодательстве России.

Просто сталкивался с похожим ТЗ: если число1 + число2 > константа, то поставить флаг "продукция прошла прием качества".

Аналогичный вопрос пришлось задать МП: "кто будет сидеть, если трубопровод Северный поток на дне моря навернется п...ой и все Балтийское море превратит в помойку ?". По количеству форвардов в ответе ))), можно было судить, что данное письмо прошло через множество рук, но в отличие от ТопикСтартера никто отвечать на него не спешил, просто ворвардили дальше. ( МП, дир.департамента, ген.дир.консалтера, вроде до ген.дира.заказчика даже дошло ). Окончательная формулировка была вроде такая "Не знаем. Но ген.дир. заказчика обещал, что это будут не программисты" ))).
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38815545
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
точнее (формулировки из http://habrahabr.ru/company/ibm/blog/169067/):
"в качестве врачей-диагностов"
"ставить диагнозы"
"назначения ... лечения" (назначение оптимального лечения)

очень есть подозрение, что это сильно подпадает под УК РФ Статья 235. Незаконное осуществление медицинской деятельности или фармацевтической деятельности - "...штрафом в размере до ста двадцати тысяч рублей...", "...принудительными работами на срок до пяти лет либо лишением свободы на тот же срок"

Сервер не памятник, кто же его посадит
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38815720
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Leonid Kudryavtsevточнее (формулировки из http://habrahabr.ru/company/ibm/blog/169067/):
"в качестве врачей-диагностов"
"ставить диагнозы"
"назначения ... лечения" (назначение оптимального лечения)

очень есть подозрение, что это сильно подпадает под УК РФ Статья 235. Незаконное осуществление медицинской деятельности или фармацевтической деятельности - "...штрафом в размере до ста двадцати тысяч рублей...", "...принудительными работами на срок до пяти лет либо лишением свободы на тот же срок"

Сервер не памятник, кто же его посадит
Американцы же никого пока сажать не собираются: "Шесть экземпляров IBM Watson уже «трудоустроены» в больницы США в качестве врачей-диагностов." (Оттуда же)
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38815909
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Суть не в этом, IBM Watson можно применять и во многих других сферах: юриспруденции, экономике и т.д.
Проблема в том, что подобные Ватсону технологии появятся в России появятся еще очень не скоро.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38816549
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114...(Оттуда же)
Martin114, раз Вы большой ученый ))), то разницу между первоисточником и левой статьей на хабре различать наверное должны. В настоящий момент, кто где трудоустроен и на каких основаниях -дело НЕ ВЕДОМОЕ.

Я уже Вам пример приводил, у меня дома в лифте тоже много чего написано. Но делать из этого какие-то выводы наверное не стоит.

Бред какой-тоЛечащий врач может со своего iPad вносить дополнительную информацию в компьютерную систему Watson в текстовом виде, например, написать «у пациента появилась кровь в мокроте при отхаркивании» — компьютер поймёт сказанное и через 30 секунд выдаст уточнённый диагноз и обновлённый курс лечения.
Не являюсь медиком. Но в РОССИИ например существует полный классификатор заболеваний со своим кодом. Некоторые диагнозы, например, даже в больничном листе указываются только кодом (без расшифровки значения).

Подозреваю, создать полный классификатор возможных симптомов еще проще. И, скорее все, он уже создан.

Отсюда вопрос НАФИГА "Лечащий врач ... вносить дополнительную информацию... в текстовом виде, например, написать «у пациента появилась кровь в мокроте при отхаркивании»" ? Когда значительно проще это ввести через справочник и избежать возможных ошибок и опечаток.

Кроме того, как я понимаю, большая часть медицинских терминов на латыни. Т.ч. в любом случае, через справочник удобнее. IMHO

Буржуйская медицинская учетная система на соседнем компьютере у коллег была развернута. Будет время, спрошу, как туда вносятся симптомы: "в текстовом виде" или как все нормальные люди - через справочники и классификаторы.

[quot Martin114]Суть не в этом, IBM Watson можно применять и во многих других сферах...[quot]
Много что, много где можно применять.
Лично Вам он зачем нужен? Где Вы его применять собираетесь?

Martin114Проблема в том, что подобные Ватсону технологии появятся в России появятся еще очень не скоро.
У нас много чего нет и не скоро появится. У нас говорят даже геев на тысячу населения значительно меньше.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38816592
Фотография softwarer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Leonid KudryavtsevНе являюсь медиком. Но в РОССИИ например существует полный классификатор заболеваний ....
1. Он существует не в России.
2. У меня есть знакомая - врач в США. Она занимается как раз работой с мед.картами (то есть обрабатывает истории болезней итп). Говорит - текстовые.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38816636
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Сравните хабр и статья 2011 года на английском http://www-03.ibm.com/press/us/en/pressrelease/33726.wss

"в качестве врачей-диагностов"
"ставить диагнозы"
"назначения ... лечения" (назначение оптимального лечения)

"...For example, a doctor considering a patient's diagnosis could use Watson's analytics technology, in conjunction with Nuance’s voice and clinical language understanding solutions, to rapidly consider all the related texts, reference materials, prior cases, and latest knowledge in journals and medical literature to gain evidence from many more potential sources than previously possible. This could help medical professionals confidently determine the most likely diagnosis and treatment options..."

“...Watson has the potential to help doctors reduce the time needed to evaluate and determine the correct diagnosis for a patient...”

В общем, беглым поиском по сайту IBM ничего не нашел. Они рекламируют систему "поиска информации" ( продвинутую google? ), а отнюдь не систему "ставить диагнозы и назначения лечения". Т.ч. вместо ссылки на хабр, хотелось бы ссылку на IBM и мед.учреждения USA.

Может действительно за 2 года что-то сделали. Но "не верю" ( C )
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38816679
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Сорри, на хабре была ссылка на _статью_ на forbes. Но в любом случае, журналисты это все же журналисты ))) Т.ч. хотелось бы более авторитетный источник

К тому же на хабре, зачем то и абзацы местами переставлены. И текст порезан. Если уж переводили, то переводили бы все. А то какой-то недоплагиат.

Начало отбросили "Watson doesn’t tell a doctor what to do...", а фразу "Doctors can enter on an iPad a new bit of information in plain text..." в "перевод" включили. Вот компьютер и стал "назначать лечение"

С учетом, что речь вроде идет об _узкоспециализированных_ мед. учреждениях (Maine Center for Cancer Medicine & Blood Disorders), сделать систему подсказок какое лекарство при каких наборов симптомов рекомендуется, лично мне не кажется чем-то сверхъестественный. Только, нафига в такую систему данные _о_симптомах_ вводить в "in plain text" мне все равно не понятно.

IMHO
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38816705
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
При том, что у любого препарата куча противопоказаний, не совместимости с другими, побочных эффектов и так далее. А даже при простых заболеваниях часто таблетки назначаются горстями.... 50% и 10% (100-90) ошибочных назначений совершенно объясним. К тому же, становится понятно, как определяли оптимальность "оптимального лечения" (в оригинале статьи "accurate treatment")

В общем, могу даже предположить, что значат слова "...90% of nurses in the field who use Watson now follow its guidance..." (меня сначала очень изумило слово "nurses" хотя раньше было "doctor"). Совершенно понятно, что если у пацианта появляется какой нибудь симптом типа "has blood in her phlegm", а в назначенных ему лекарствах (от рака, т.е. совсем не аспирин) написано при противопоказаниях может быть "has blood in her phlegm" - явно лечение срочно нужно прерывать и корректировать.

Помню когда в свое время в детстве лечился, где-то через месяц врачу сказал "а еще у меня ....", "так у Вас персональная непереносимость, заменим .... на другое лекарство" ))).

Подозревая, что в случае сильнодействующих лекарств уже и через неделю может оказаться, что менять на другое уже не нужно ))) по причине отсутствия пациэнта )))

Только, на мой взгляд, обычная учетная система + БД по препаратам, симптомам. Где тут мега-прорыв в технологиях, лично я не вижу. Давно пора было сделать.

IMHO
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38816718
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну и программу умеющую ставить диагнозы для Maine Center for Cancer Medicine & Blood Disorders я тоже могу написать ))). Работать будет быстрее любого супер компьютера от IBM.
Код: sql
1.
2.
3.
void main() {
  printf( "Рак" );
}
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38816741
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
зацепило...


по поводу "оптимального лечения"

У коллеги жена в Мариинская больнице в СПб работала, не знаю, насколько правда, но слышал байку, что им новогодние каникулы всю статистику портят. На каникулах (когда врачей нет), смертной резко понижается )))

Помню на одном из медицинских форумах было обсуждение нужно ли или нет при дефибрилляции вводить адреналин (могу ошибаться). Т.к. по новомодным течения он типа считается вредным. Завершающий пост понравился "по статистике > 90% пациентов погибает в течении месяца. Т.ч. пофиг. Хотите вводите, хотите нет, все равно помрет" не дословно, но смысл был такой )))

Ну и в связи со статьей, я так понимаю, половину интернета теперь исправлять придется:

Очнулся пациент после операции. Везут куда-то его на каталке
— Куда вы меня везете?
— В морг
— Но ведь я же еще не умер?
— Больной! Не занимайтесь самолечением! IBM Watson сказал: "В морг", значит — в морг!

...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38817109
Фотография softwarer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Leonid KudryavtsevНа каникулах (когда врачей нет), смертной резко понижается
Больной нуждается в уходе врача. И чем быстрее и дальше уйдёт врач, тем лучше (с)

П.С. Смертность очень зависит от эмоционального состояния человека. В той степени, которая описывается ещё одной старой фразой

Если пациент действительно хочет жить, медицина бессильна. (с)
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38817578
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Leonid KudryavtsevMartin114Суть не в этом, IBM Watson можно применять и во многих других сферах...
Много что, много где можно применять.
Лично Вам он зачем нужен? Где Вы его применять собираетесь?
Отложим медицину. Рассмотрим такую задачу: начинающему помощнику юриста, работающему в прецедентной системе права (США, Великобритания), нужно найти все прецеденты, касающиеся данного дела за последние 200 лет. Т.е. перелопатить десятки и сотни тысяч дел. Тут уже не применишь классификатор болезней. Придется делать лингвистическую систему. Ребята из ABBYY собираются сделать это.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38818428
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Почему же отложим:
1)
Вы ранее говорили "наука", "публикации", "качество публикации определяется"...

Вот хотелось бы, что бы Вы за свои слова ответили. Вы же, вроде как, даже за IBM Watson посидеть годков шесть (срок из статьи 235) обещались ( 16897985 ).

Ни ужели даже сказать нечего?

2)
Тема топика "компьютерная лингвистика" и системы созданные для понимания смысла вложенного в буковки написанного текста.

Перед тем, как переходить к обсуждению " компьютерной лингвистики ", критериев оценки и качеству предлагаемых компьютерных продуктов. Хотелось бы обсудить критерии оценки и качество лингвистических способностей human sapiens.

2.1. Материала для обсуждения значительно больше. Доступ к продуктам "Abby что-то там" и IBM Watson не у Всех есть. А данный форум доступен

2.2. Решив эту, на мой взгляд более простую проблему. Выработанные подходы (критерии оценки, терминология и так далее) можно будет уже _потом_ распространить на компьютерные информационные системы

3)
Вы, с самого начала, говорили слова "научная работа". Мне эти слова не очень понятны, у меня даже высшего образования нет ))). Т.ч. хотелось бы, что бы параллельно с п.2 можно было бы увидеть пример "научного подхода".

4)
Говоря о лингвистики и тексте, хотелось бы опять таки обсуждение построить от простого к сложному. Я предлагаю сначала выработать терминологию. Начать предлагаю с термина и производных от него:

Пиздеж, пи****ол, пиздеть...

Хотелось бы услышать Ваше определение данного слова и критерии его применимости в разных ситуациях.

5)
В данном форуме, уже поднималось обсуждение значения слова/термина "мышления"

К сожаление, на мой вопрос какое именно мышление , мы обсуждаем - ответа не было.

Т.ч. хотелось бы обсудить и это слово/термин/понятие. И также, для начала, ограничить обсуждения проблемы качества восприятия текста лишь одним из вариантов мышления. Свои предложения по классификации данного культурологического феномена я уже предложил.

For moderators:
1. Последовательность байт "пи****ол" я предлагаю исключительно как _термин_. Термин вряд ли может быть ругательным или оскорбительным. Если кто может предложить более лучший вариант - welcome
2. Тема форума "лингвистика". AFAIK данная наука, как и филология, должна охватывать весь набор культурологических явлений. Т.ч. данная моя просьба к топик стартеру, который позиционирует себя как специалист (или интересующийся) в лингвистике НЕ является оффтопиком.
Цветаева вроде говорила "Мы филологи, нам можно". Мы обсуждаем лингвистику, странно было бы закрывать глаза на настолько очевидные проблемы.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38818462
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Извиняюсь, если задаю банальные вещи. Ответ RTFM на работы лингвистов посвященных п.2 и п.3 разумеется принимается. К сожалению, по "мышлению" читал только некоторые работы психологов и наркологов. С трудами прославленных лингвистов не сталкивался.

...Т.е. перелопатить десятки и сотни тысяч дел...
Я программист. И лично я, перед тем как создавать программу для запуска на "сотни тысяч", сначала потребовал бы в ТЗ дать определение термина "пиздеж". И, соотственно, описать заданный алгоритм

Т.к. на мой взгляд, основный цикл такого приложения должен выглядить примерно так:

Код: sql
1.
2.
3.
4.
5.
6.
7.
for (....) {
  doc = get_information( ... );
  if ( is_avtor_spizdel( doc ) ) {
     continue;
  }
  process_information( doc );
}
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38819978
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
alex55555Martin114выяснить, стоит ли вообще заниматься научной работой в области компьютерной лингвистики (КЛ)
Если ради денег - наверное не стоит. Работайте программистом, денег будет больше.
Martin114В Москве КЛ занимаются в фирме ABBYY, руководит научной работой Селегей Владимир Павлович. В Москве, Питере и Нижнем Новгороде в ряде вузов открыты кафедры КЛ, что говорит о востребованности специалистов КЛ например, в той же ABBYY. В мире же можно получить понятие о современном состоянии КЛ по MIT-му журналу Computational Linguistics .
Принципиальная востребованность неких технологий должна быть сконвертирована в вашу зарплату. Этим занимаются конторы типа ABBYY или Google. Если вы хотите зарабатывать и при этом ещё и оставаясь в лингвистике (совмещая приятное с полезным), то в конторах типа ABBYY или Google вам предстоит этап "меня должны заметить". Как уж вы им себя разрекламируете - вопрос непростой, можно свои работы им слать, можно в гости ходить, можно резюме с особо умными достижениями отправить. И если на вас в конце концов обратят внимание вас пустят по стандартной цепочке собеседования, когда ихние архитекторы или кто-то вроде того зададутся вопросом - зачем мне в штат этот человек ? Ваша задача на собеседованиях будет состоять в доказательстве вашей ценности, но не только. Архитектору ещё важно быть уверенным, что вы не составите ему конкуренцию, не начнёте вести пропаганду своих идей и другими способами портить ему жизнь. Ну и наконец, если чел из какого-то отдела, куда вас пошлют собеседоваться, решит, что вы можете быть полезны и одновременно в отделе есть вакансия - возможно вам эту вакансию предложат.

Хотя если у вас в области лингвистики есть международно известное имя - с вами могут гораздо более мягкие переговоры вести.

Ну и общее - не путайте науку и бизнес. Бизнесу нужны продажи, а перспективные разработки у них и так есть, западные статьи они читать умеют, на конференциях и прочих мероприятиях информацию собирают, что-то там себе анализируют и и обобщают. Работу же они вам предложат только рутинную, ибо своих архитекторов (ну или как там называют главных учёных) там и так хватает. И даже что бы предложили работу близкую к лингвистике - надо постараться.
Martin1141) Настолько ли реальны перспективы и задачи КЛ, что ей стоит заниматься?
Вопрос в сроках и удачном попадании в нужное место в нужное время. В долговременной перспективе задачи КЛ очень востребованы. А если удачно произведёте впечатления лично на какого-нибудь высокого начальника хоть в ABBYY, хоть в Google - в кратковременной перспективе у вас так же всё будет хорошо.
Martin1142) Настолько ли будут востребованы специалисты в КЛ, что Москва (ABBYY в частности) может взять человека из другого города?
Попробуйте к ним постучаться. В худшем случае - пробежитесь по стандартному кругу собеседований и лично познакомитесь с народом, который как вам кажется занимается наукой. В лучшем случае - могут принять на работу.
Martin114У меня есть повод для оптимизма: моя землячка сейчас пишет диссер по машинному переводу в Питере (ее работа состыкуется с так называемой логической семантикой). Но в Москву ее так и не взяли - ее работа там оказалась не нужна.
Вот видите - важна не работа, но важно понимать, нафига козе баян, то есть - зачем конторе нужны работники. Развивать научные идеи за большие деньги в аббях с гуглами и так полно желающих, а тут вы со своей диссертацией. Вот если бы вы некий прорыв в КЛ организовали или мировым светилом вас признали - тогда да, вас бы востребовали. А просто диссеры писать им нафиг не надо, на то у них связи с кафедрами и прочими заведениями имеются. В общем - это бизнес, а не наука. Их задача быть в курсе, уметь предложить готовые решения из набора опубликованных. А что-то новое ваять им задачи не ставят, ибо с точки зрения бизнеса такую задачу сложно планировать - когда вы открытие сделаете, кто вас знает.
Вот такая информация для размышления:
В команде ABBYY в России работают аспиранты, доценты, 31 кандидат наук и 3 доктора наук. ( отсюда )
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38823009
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Я со своей дилетантской точки зрения могу предполагать следующее.
Если сравнить систему на основе компьютерной лингвистики по аналогии с деятельностью человека, то можно выделить следующие элементы ее работы:
- работа с текстом, синтаксический разбор текста;
- работа с семантикой, со смыслом текста, соотнесение текста с имеющейся в системе базой знаний (семантической сетью и т.д.),
- отсюда нужны знания и представление знаний (онтологии или что-то подобное);
- логический вывод, система должна уметь "рассуждать" и "делать выводы" при машинном переводе, анализе текста, анализе смысла текста и т.д.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38830437
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
SheratonЯ думаю скоро компьютерная лингвистика, будет бороздить просторы вселенной.
Текущие разработки ABBYY:
ABBYY Intelligent Search SDK:
авторABBYY Intelligent Search SDK – это инструментарий разработчика, который позволяет встраивать интеллектуальную технологию поиска в различные корпоративные системы и приложения.

В основе ABBYY Intelligent Search SDK – уникальная технология понимания, анализа и перевода текстов на естественных языках ABBYY Compreno. Благодаря ей при поиске инструментарий учитывает не только все формы слов, но и их значения, выявляет смысловые связи между словами, определяет смысл и контекст всего документа. Такой подход позволяет значительно повысить эффективность поиска по сравнению с традиционными системами полнотекстового поиска.

ABBYY Intelligent Search SDK позволит разработчикам и интеграторам создавать интеллектуальные решения, способные на новом качественном уровне выполнять задачи, связанные с поиском информации.

Сферы применения

ABBYY Intelligent Search SDK можно использовать для эффективного поиска по различным корпоративным ресурсам, включая:

Системы управления данными
Системы документооборота, файловые хранилища, CRM, ERP и другие системы.
Корпоративные базы знаний
Базы знаний в отделах технической поддержки, контакт-центрах, отделах продаж.
Интернет ресурсы
Корпоративные сайты, порталы, интернет-магазины.
Средства коммуникации
Корпоративная почта, средства обмена сообщениями, форумы.

Преимущества

Простой и готовый к интеграции продукт
ABBYY Intelligent Search SDK легко встроить в решение разработчика. Инструментарий включает детальную документацию и примеры кода.
Высокое качество поиска
Инструментарий разработчика позволяет понимать смысл текстовой информации, а значит, добиваться высокой точности и полноты поиска. Анализ смысла также обеспечивает «умное» ранжирование, при котором релевантные результаты всегда стоят на первых позициях.
Возможности для создания интеллектуальных решений
ABBYY Intelligent Search SDK автоматически извлекает из текстов определенную информацию (персоны, организации и другие), а также метаданные документов. Это позволяет реализовывать дополнительные полезные функции поиска.
http://www.abbyy.ru/isearch/

ABBYY Intelligent Tagger SDK:

авторABBYY Intelligent Tagger SDK – это инструментарий разработчика, который анализирует неструктурированную текстовую информацию и автоматически извлекает из нее именованные сущности (персоны, организации, даты и другие) и метаданные документов. Полученные данные можно использовать для совершенствования и автоматизации различных бизнес-задач, таких как поиск и анализ знаний, классификация и маршрутизация входящей информации, управление документацией и выявление конфиденциальных данных в ней.

Уникальная лингвистическая технология ABBYY Compreno, лежащая в основе ABBYY Intelligent Tagger SDK, позволяет понимать семантические значения всех слов в тексте, выявлять смысловые связи между ними и определять общий контекст всего документа. Это обеспечивает высокую точность и полноту выявления сущностей в текстах.

Простота использования, подробная документация для разработчика, высокое качество анализа текстовых данных делает ABBYY Intelligent Tagger SDK незаменимым средством для создания интеллектуальных решений, способных эффективно работать с неструктурированной информацией.

ABBYY Intelligent Tagger SDK применяется для решения следующих задач:

авторУправление документооборотом


Совершенствование поисковых систем (поиск и фильтрация по сущностям и метаданным).
Оптимизация хранения документации (классификация, своевременное удаление).
Фильтрация электронной почты.

Управление рисками


Анализ информации с высоким рисковым потенциалом.
Мониторинг и предотвращение утечки данных.
Соответствие внутренним нормам и контроль над хранением конфиденциальных данных.

Запуск и автоматизация
бизнес-процессов

Анализ поступающих запросов в компанию и их маршрутизация.
Оптимизация процессов согласования документов.
Преимущества ABBYY Intelligent Tagger SDK:

Обеспечивает высокую точность и полноту извлечения сущностей из текстов.
Выполняет анализ автоматически; не требуется предварительно вручную размечать документы.
Извлекает сущности без использования специализированных пользовательских словарей, поэтому разработка и внедрение не требуют дополнительных вложений и времени.

http://www.abbyy.ru/itagger/
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38830554
ViPRos
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114,

скорее всего это какая-нить фигня
есть там какие-нить примеры?
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38830559
ViPRos
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
конетекст они видите ли вычисляют
с лупой в руках нормальные люди не могли найти настоящий контекст в статьях правды и известий
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38830829
NickDee
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114- работа с семантикой, со смыслом текста, соотнесение текста с имеющейся в системе базой знаний (семантической сетью и т.д.),
Вкус шашлыка с пивом не упаковать в нолики и единички :)
Попробуйте осознать смысл моего предыдущего предложения :) И посыл текста в целом :)
И попробуйте закодить этот смысл, или перевести на другой язык :)
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38830834
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> с лупой в руках нормальные люди не могли найти настоящий контекст в статьях правды и известий

Легко. И раньше, и тем более сейчас: падает квалификация авторов, деградируют задачи. :)
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38831273
ViPRos
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
guest_20040621,

я специально подчеркнул - нормальные люди :)
а счас можно максимум по 5-10 словам нововеденным попасть в контекст, для этого просто нужен справочник из 500 слов
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38836479
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
NickDeeMartin114- работа с семантикой, со смыслом текста, соотнесение текста с имеющейся в системе базой знаний (семантической сетью и т.д.),
Вкус шашлыка с пивом не упаковать в нолики и единички :)
Попробуйте осознать смысл моего предыдущего предложения :) И посыл текста в целом :)
И попробуйте закодить этот смысл, или перевести на другой язык :)
Попробуйте почитать это: Онтоинженер: работа по понятиям .
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38837929
474
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114,

Проблема с Compreno в том, что работающего переводчика нет. Можно сколько угодно выкладывать "примеры" переводов, выполненных Compreno, но где доказательства, что это перевод программы, а не обманывание публики?
Есть ли ПО, которое доступно широким массам и которое можно протестировать, что-то типа Google translate или Яндекс переводчика?
Надеюсь у вас нет сомнений в том, что если бы Compreno действительно существовал и работал(!), то уже ABBYY не упустили бы шанса всем его продемонстрировать через веб-морду и пожинать заслуженные лавры?
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38838154
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
474Martin114,

Проблема с Compreno в том, что работающего переводчика нет. Можно сколько угодно выкладывать "примеры" переводов, выполненных Compreno, но где доказательства, что это перевод программы, а не обманывание публики?
Есть ли ПО, которое доступно широким массам и которое можно протестировать, что-то типа Google translate или Яндекс переводчика?
Надеюсь у вас нет сомнений в том, что если бы Compreno действительно существовал и работал(!), то уже ABBYY не упустили бы шанса всем его продемонстрировать через веб-морду и пожинать заслуженные лавры?
Согласен, что Compreno - это еще сырая разработка, поэтому демонстрировать нечего. А если и был бы, потребовал бы таких ресурсов, что в вебе его вряд ли можно было бы продемонстрировать (хотя вообще можно было бы предусмотреть регистрацию желающих и назначение каждому места в очереди и промежутка времени для перевода, скажем, абзаца).
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38838367
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
В Википедии есть статья Теория "Смысл-Текст" про историю работ по машинному переводу в СССР (под руководством Мельчука).
Так что компьютерная лингвистика может оказаться рискованной областью, в ней и признанные корифеи терпели неудачу.
Поэтому скепсис присутствующих вполне понятен.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38838526
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
474Martin114,
Надеюсь у вас нет сомнений в том, что если бы Compreno действительно существовал и работал(!), то уже ABBYY не упустили бы шанса всем его продемонстрировать через веб-морду и пожинать заслуженные лавры?
Насчет веб-морды. Есть презентация Извлечение справочных данных из технических текстов на естественных языках .
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38838533
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
474Martin114,
Проблема с Compreno в том, что работающего переводчика нет. Можно сколько угодно выкладывать "примеры" переводов, выполненных Compreno, но где доказательства, что это перевод программы, а не обманывание публики?
Есть ли ПО, которое доступно широким массам и которое можно протестировать, что-то типа Google translate или Яндекс переводчика?
Надеюсь у вас нет сомнений в том, что если бы Compreno действительно существовал и работал(!), то уже ABBYY не упустили бы шанса всем его продемонстрировать через веб-морду и пожинать заслуженные лавры?
Цитата отсюда :
авторНам посчастливилось поработать как онтоинженерам с Compreno, и поучить его разбирать инженерные тексты (тексты железной инженерии). До «успешного внедрения» нам ещё далеко, но зато и причин скрывать наши результаты за NDA у нас тоже нет.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38838616
AlexProOra
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Че Вы на ABBYY то зациклились?
Сравнивали Abbyy и RCO, результат - в следующем году закупаем RCO FactExtractor.
Почему:
1. цена
2. у Abbyy API к IIS привязано, а оно нам нафиг не нужно, так как сервер приложений свой.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38838794
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
AlexProOraЧе Вы на ABBYY то зациклились?
Сравнивали Abbyy и RCO, результат - в следующем году закупаем RCO FactExtractor.
Почему:
1. цена
2. у Abbyy API к IIS привязано, а оно нам нафиг не нужно, так как сервер приложений свой.
О, спасибо за наводку.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38838851
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
AlexProOraЧе Вы на ABBYY то зациклились?
Сравнивали Abbyy и RCO, результат - в следующем году закупаем RCO FactExtractor.
Почему:
1. цена
2. у Abbyy API к IIS привязано, а оно нам нафиг не нужно, так как сервер приложений свой.
Вы случайно не знаете, RCO на каком ЯП работают? (В ABBYY, как известно - на C#.)
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38838930
AlexProOra
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Martin114Вы случайно не знаете, RCO на каком ЯП работают? (В ABBYY, как известно - на C#.)
На каком написано? не знаю...
Там dll-ка, примеры идут на С или С++ (не помню точно), мы будем использовать в связке с Delphi7.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38855660
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
474Martin114,

Проблема с Compreno в том, что работающего переводчика нет. Можно сколько угодно выкладывать "примеры" переводов, выполненных Compreno, но где доказательства, что это перевод программы, а не обманывание публики?
Есть ли ПО, которое доступно широким массам и которое можно протестировать, что-то типа Google translate или Яндекс переводчика?
Надеюсь у вас нет сомнений в том, что если бы Compreno действительно существовал и работал(!), то уже ABBYY не упустили бы шанса всем его продемонстрировать через веб-морду и пожинать заслуженные лавры?
Видимо, Compreno слишком громоздок, чтобы его можно было его просто так подключить в виде веб-морды. Кроме того, в него уже вложено 400 млн., так что бесплатным он быть не может.
Хотя его можно использовать по схеме, по которой используется IBM Watson - в виде облака.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38862403
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
В ноябре 2013-го на Хабре опубликовали статью Анатолия Старостина, руководителя группы семантического анализа и преподавателем кафедры «Компьютерная лингвистика» в МФТИ. Он рассказал о работе своей группы, направлениях компьютерной лингвистики в ABBYY и кто такие онтоинженеры: ScienceHub #06: Компьютерная лингвистика .
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38871725
k.smith
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Странно, что Вы так "прицепились" к Abbyy. В России есть множество других компаний, разрабатывающих подобные продукты (Yandex, AviComp, RCO, АйТеко, SyTech и др.), список см. Список программ , Список продуктов .

Насчёт компьютерной лингвистики (КЛ), то мне видится, что на сегодняшний день тот очень ограниченный список реально востребованных задач КЛ "поделен" между крупными игроками. Несмотря на заклинания о востребованности и перспективности, крайне трудно найти коммерчески привлекательную задачу КЛ, поскольку 99% информационных потребностей подавляющего большинства пользователей (кстати, и мои в том числе) покрывает полнотекстовый поиск. Скажем, надежды на универсальный семантический поиск, увы, не оправдались.
Можно реализовать неплохой семантический анализ, уметь прекрасно выделять именованные сущности, но зачем? И кому это надо?
Видимо, в Abbyy только сейчас озаботились этими вопросами, когда практические задачи уже расхватали другие компании, возможно, с менее качественными движками. То есть Abbyy долго делали мотор, пока остальные делали автомобили.
Вот как то так...
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38872004
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
k.smith, большое спасибо за информацию.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38873319
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
k.smithСтранно, что Вы так "прицепились" к Abbyy. В России есть множество других компаний, разрабатывающих подобные продукты (Yandex, AviComp, RCO, АйТеко, SyTech и др.), список см. Список программ , Список продуктов .

Насчёт компьютерной лингвистики (КЛ), то мне видится, что на сегодняшний день тот очень ограниченный список реально востребованных задач КЛ "поделен" между крупными игроками. Несмотря на заклинания о востребованности и перспективности, крайне трудно найти коммерчески привлекательную задачу КЛ, поскольку 99% информационных потребностей подавляющего большинства пользователей (кстати, и мои в том числе) покрывает полнотекстовый поиск. Скажем, надежды на универсальный семантический поиск, увы, не оправдались.
Можно реализовать неплохой семантический анализ, уметь прекрасно выделять именованные сущности, но зачем? И кому это надо?

А если сделать еще один шаг вперед: пользуясь синтактико-семантическими парсерами, автоматически из текста создавать базы знаний (например, в виде онтологий)? И потом работать со знаниями: классифицировать документы, извлекать данные, даже помогать в принятии решений по документам (привет искусственному интеллекту).
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38873538
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> крайне трудно найти коммерчески привлекательную задачу КЛ

Элементарно. В т. ч. и для модного нынче анализа социальных сетей.

> покрывает полнотекстовый поиск

Вы ошибаетесь, если думаете, что где-то реализован публичный полнотекстовый поиск.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38873596
k.smith
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
guest_20040621,
>> крайне трудно найти коммерчески привлекательную задачу КЛ
>Элементарно. В т. ч. и для модного нынче анализа социальных сетей.

Этим много кто занимается. Вопрос только в заказчике с практической задачей, которому интересен анализ сетей или что бы то ни было ещё (перевод, сентиментный анализ, структурирование данных и пр.) и который готов поручить её именно вам/нам, а не какому-нибудь АйТеко. Это - ключевой вопрос, поскольку системы развиваются только на реальных задачах. Всё остальное уже мелочи. Я занимаюсь задачами КЛ 4 года, и считаю вопрос заказчика главным.

>> покрывает полнотекстовый поиск
>Вы ошибаетесь, если думаете, что где-то реализован публичный полнотекстовый поиск.

Да ладно, та же открытая Lucene под разными платформами (Java, .Net), на этом конструкторе быстро реализуются полнотекстовые эффективные поисковики на миллионы документов (на миллиарды не проверял).
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38873667
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> Этим много кто занимается.

Разумеется. И вы где-то правы, говоря о заказчике с практической задачей. Фишка в том, что часть таких задач - предмет текущих научных исследований, по которым нет готовых решений.

> Я занимаюсь задачами КЛ 4 года, и считаю вопрос заказчика главным.

Я так не думаю. Наиболее интересный вариант - новый рынок и массовый продукт. Это сложно, но реально.

> та же открытая Lucene

И что, есть публичный сервис с интересным для анализа хранилищем?
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38873699
k.smith
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
guest_20040621,

>> Я занимаюсь задачами КЛ 4 года, и считаю вопрос заказчика главным.
>Я так не думаю. Наиболее интересный вариант - новый рынок и массовый продукт. Это сложно, но реально.

Особенность КЛ состоит в том, что массовый продукт на нём малореален в связи с тем, что массам это не надо. Возьмём самое востребованное направление - перевод. После того, как он встроен в Google и Yandex, про это направление можно забыть. Даже если сделать переводчик лучше (например, на базе Compreno, хотя тут большие сомнения), то его просто [почти] никто не купит - а зачем? Ну нет у массового пользователя потребностей, которые не решались бы полнотекстовым поиском и решались бы КЛ.

Если Вы знаете о потребности хотя бы 1% пользователей (это уже будет массовый продукт!) - свяжитесь со мной по скайпу konstantin.smith , пожалуйста. Если это стоящая идея, то найдём и ресурсы, и финансирование к взаимной выгоде.

>> та же открытая Lucene
>И что, есть публичный сервис с интересным для анализа хранилищем?

А всякие там файловые бесплатные хранилища, облака и пр.? И какой анализ? Массовому пользователю анализ не нужен. Корпоративные же системы, где возможен спеицифический анализ, не хранят свои данные в публичных хранилищах - кто ж согласится на это!
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38873777
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> Особенность КЛ состоит в том, что массовый продукт на нём малореален

Вам так кажется, уверяю вас. Предположу, что в течение года - двух вы увидите и новый рынок, и новые продукты.

> Возьмём самое востребованное направление - перевод.

Вы, наверное, хотели сказать "самое очевидное"? Наиболее интересные задачи - в междисциплинарной области.

> хотя бы 1% пользователей

Я не говорил о потребительском рынке.

> свяжитесь со мной

Не интересно. Деньги - не проблема, просто не интересно. Вы пытаетесь заработать на технологии, тогда как на самом деле это инструмент для прикладных задач. А сформулировать эти задачи вы не можете: вы никогда не выходили за рамки конкретного заказчика. В России "платёжеспособный заказчик" очень часто синоним "тупой заказчик", есть такая особенность деловой практики.

> А всякие там

Всякие там хранилища - это хранилища, которые организовать и поддерживать стоит денег. Для удовлетворения праздного любопытства никто этим заниматься не будет.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38873905
k.smith
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
>Вам так кажется, уверяю вас. Предположу, что в течение года - двух вы увидите и новый рынок, и новые продукты.
Буду с нетерпением ждать!

>Не интересно. Деньги - не проблема, просто не интересно.
Ну если деньги - не проблема, тогда я Вас поздравляю! У меня где-то получается половина бесплатных проектов по КЛ, но без другой коммерческой половины не могу обойтись, так как живу на это. Хорошо, что хоть почти все проекты мне интересны. А мегаинтерес - когда за задачу КЛ платит заказчик, заинтересованный в результате.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38883122
sqluserX
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Хорошая тема
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38895179
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
k.smithНасчёт компьютерной лингвистики (КЛ), то мне видится, что на сегодняшний день тот очень ограниченный список реально востребованных задач КЛ "поделен" между крупными игроками. Несмотря на заклинания о востребованности и перспективности, крайне трудно найти коммерчески привлекательную задачу КЛ, поскольку 99% информационных потребностей подавляющего большинства пользователей (кстати, и мои в том числе) покрывает полнотекстовый поиск. Скажем, надежды на универсальный семантический поиск, увы, не оправдались.
Можно реализовать неплохой семантический анализ, уметь прекрасно выделять именованные сущности, но зачем? И кому это надо?
Видимо, в Abbyy только сейчас озаботились этими вопросами, когда практические задачи уже расхватали другие компании, возможно, с менее качественными движками. То есть Abbyy долго делали мотор, пока остальные делали автомобили.
Вот как то так...
А как насчет задач классификации и извлечения сущностей в системах электронного документооборота, например, в системах сбора маркетинговой информации?
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38895220
k.smith
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Martin114, >А как насчет задач классификации и извлечения сущностей в системах электронного документооборота, например, в системах сбора маркетинговой информации?

Хорошие задачи, но только для конкретной системы. Увы, не получается сделать что-то универсальное, но для конкретной системы ЭД при наличии некоторой потребности (например, по тексту документа предложить типовой маршрут согласования на основе информации о прохождении подобных документов) вполне очень даже. Для этого нужно всего ничего:

1) Найти организацию, в которой есть некоторая информационная система;
2) Найти некоторую информационную потребность, на которую сейчас уходит много времени сотрудников (а, следовательно, денег);
3) Понять, насколько её можно автоматизировать и какой при этом получится выигрыш для организации;
4) Оценить стоимость работы, чтобы она была существенно меньше выигрыша;
5) Найти в организации заинтересованных лиц, готовых лоббировать решение;

Абстрактное решение этих задач, на мой взгляд, бесперспективно - слишком уж узкие потребности у конечных пользователей.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38895340
ViPRos
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
k.smith,

эти 5 пунктов касается любой задачи
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38895368
Фотография SashaMercury
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ни разу не встретил словосочетание "Тест Тьюринга". Разве не от него нужно скакать при обсуждении данного вопроса ?
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38895905
mad_nazgul
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SashaMercuryНи разу не встретил словосочетание "Тест Тьюринга". Разве не от него нужно скакать при обсуждении данного вопроса ?

"Тест Тьюринга" сейчас проходиться примитивными ботами.
Как минимум если не говорить, кто проверяет, что он должен протестировать машину.
А так современные боты вполне способны поддерживать светскую беседу.
А IBM вообще замахнулась на эпистолярный жанр.
Вроде бы ее суперкомпьютер уже может писать средней руки статейки на заданную тему.
Идея конечно, была известна еще в 30-е годы XX века, но человек все равно был нужен.
А сейчас хоп и в передовицу!

Тут спор о другом, может ли машина "думать".
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38896737
Фотография SashaMercury
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mad_nazgulSashaMercuryНи разу не встретил словосочетание "Тест Тьюринга". Разве не от него нужно скакать при обсуждении данного вопроса ?

"Тест Тьюринга" сейчас проходиться примитивными ботами.Как минимум если не говорить, кто проверяет, что он должен протестировать машину.
А так современные боты вполне способны поддерживать светскую беседу.
А IBM вообще замахнулась на эпистолярный жанр.
Вроде бы ее суперкомпьютер уже может писать средней руки статейки на заданную тему.
Идея конечно, была известна еще в 30-е годы XX века, но человек все равно был нужен.
А сейчас хоп и в передовицу!

Тут спор о другом, может ли машина "думать".

А где можно почитать про такие успехи ?
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38896750
mad_nazgul
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SashaMercuryА где можно почитать про такие успехи ?
Чат боты не?!
<:o)
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38896756
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Странные вы ребята, k.smith и Martin114. За последние пару недель два великолепных примера использования NLP: грант Knight Foundation на разработку системы для обработки комментариев и свежее исследование The Brookings Institution сторонников ISIS в Twitter. Никаких специальных усилий для поиска, только обычное повседневное чтиво. Чем вы занимаетесь на самом деле - загадка. Точно - не разработкой.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38896759
Фотография SashaMercury
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mad_nazgulSashaMercuryА где можно почитать про такие успехи ?
Чат боты не?!
<:o)

нет. Тест Тюринга был пройден лишь однажды. В прошлом году. Был имитирован ребенок.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38896779
mad_nazgul
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SashaMercurymad_nazgulпропущено...

Чат боты не?!
<:o)

нет. Тест Тюринга был пройден лишь однажды. В прошлом году. Был имитирован ребенок.

Так там знали, что с ними может разговаривать машина.
А когда не знают... То самые простейшие чат-боты прокатывают. :-)
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38897159
k.smith
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
guest_20040621, >Странные вы ребята, k.smith и Martin114. Чем вы занимаетесь на самом деле - загадка. Точно - не разработкой.

За себя скажу, что последние 4 года занимаюсь именно разработкой на .NET (обработка текстов на русском языке) на базе своего же NER-движка, выложенного на pullenti.ru для свободного некоммерческого использования. Проекты самые разные, но доход в основном от проектов, связанных с обработкой текстов нормативно-правовых актов НПА (законы, указы, решения судов, договора и пр.). Здесь много специфических задач, например, выделить ссылки на части НПА и проверить по базе существование оных, нет ли правовых коллизий, правильно ли оформлен НПА по правилам юртехники и т.п. Мегазадача - поиск судебных прецедентов.
Помимо этого, есть ряд некоммерческих проектов (в основном, исследовательских), у некоторых из них есть шанс оказаться полезными для конечных пользователей. Так и живём...
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38897524
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> разработкой на .NET

Бегите от форточек. Давным-давно пора.

> Мегазадача - поиск судебных прецедентов.

Было бы в России прецедентное право или хотя бы существовала независимая судебная система, - задача имела бы смысл.

> Так и живём...

Я вижу. Но не понимаю почему. Реально куча интереснейших прикладных задач, - просто посмотрите вокруг.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38897861
k.smith
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> Бегите от форточек. Давным-давно пора.
На самом деле .NET - мультиплатформенная среда, функционирующая и под *nix, и под Mac (наподобие Java). Но на Visual Studio удобнее и быстрее разрабатывать софт, чем на джавовских Нэтбинз или Эклипсе.

>Реально куча интереснейших прикладных задач, - просто посмотрите вокруг.
guest_20040621, ну приведите пример хотя бы парочки задач, поделитесь с нами, если не жалко. Кстати, а Вы чем занимаетесь? Судя по оптимизму, Вы - студент (сам был таким).
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38898398
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
k.smithПроекты самые разные, но доход в основном от проектов, связанных с обработкой текстов нормативно-правовых актов НПА (законы, указы, решения судов, договора и пр.). Здесь много специфических задач, например, выделить ссылки на части НПА и проверить по базе существование оных, нет ли правовых коллизий, правильно ли оформлен НПА по правилам юртехники и т.п. Мегазадача - поиск судебных прецедентов.

Я уже выше писал:
авторПомимо интеллектуального поиска и извлечения «сущностей» в корпоративных хранилищах, Abbyy считает важным направлением работы e-discovery — процесс поиска информации в документах компаний в рамках юридических разбирательств, аудита и расследований в США и Великобритании.

"Скорость сотрудничества компании, участвующей в судебном процессе, и полнота предоставления информации зачастую являются ключевыми факторами для присяжных и судьи, которые позволяют им оценить участие компании в процессе", — считает гендиректор Abbyy Сергей Андреев. При этом в компании не исключают возможности в дальнейшем применять продукты на основе Compreno в юридических спорах и на территории России.

«Наша индустрия нуждается в аналитике и более интеллектуальных решениях поиска, — говорит Атле Шеккеланд (Atle Skjekkeland), вице-президент и главный операционный директор Ассоциации по вопросам управления информацией и изображениями (AIIM). — Люди часто используют самые разнообразные термины для обозначения одних и тех же понятий, а потому необходимы решения, которые работают не только со значением слов, но и с контекстом. Кроме того, люди, которые находятся в поиске информации, часто не до конца понимают, что именно они ищут – им приходится перебирать варианты. И не найдя искомую информацию со 2-3 раза, они просто сдаются».

Подробнее: http://corp.cnews.ru/news/top/index.shtml?2014/04/09/567483
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38898438
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
guest_20040621> разработкой на .NET

Бегите от форточек. Давным-давно пора.
На .NET программируют в ABBYY.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38898505
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> На .NET программируют в ABBYY

Достаточная причина для того, чтобы избегать их продуктов.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38899348
mad_nazgul
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
guest_20040621> На .NET программируют в ABBYY

Достаточная причина для того, чтобы избегать их продуктов.

Мягко скажем - вы не правы.
Для ИИ важен не ЯП, а важны алгоритмы.
Не важно на чем они написаны, важно как и что написано.
Первые эксперименты с вообще на BASIC делали.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38899558
Фотография BlackGnomeГуест
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mad_nazgulguest_20040621> На .NET программируют в ABBYY

Достаточная причина для того, чтобы избегать их продуктов.

Мягко скажем - вы не правы.
Для ИИ важен не ЯП, а важны алгоритмы.
Не важно на чем они написаны, важно как и что написано.
Первые эксперименты с вообще на BASIC делали.

т.е. порог вхождения в питон и его популярность, к примеру - роли не играет...
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38899640
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> Мягко скажем - вы не правы.

Указать направление движения?

> Для ИИ важен не ЯП, а важны алгоритмы.

Дружище, разницу между ИИ и NLP вы себе отчётливо представляете?
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38899727
mad_nazgul
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
BlackGnomeГуестт.е. порог вхождения в питон и его популярность, к примеру - роли не играет...

По большому счету нет, не играет.
ЯП и фреймворки играют роль при работе "прикладным программистом".
Когда для того или иного ЯП наработан удобный инструментарий для решения определенных задач.

Для ИИ я таких не видел.
Тут проблема не в ЯП и его окружении, а в матмодели и алгоритмах.
Так что на данном этапе пофиг на чем писать алгоритмы, хоть на BASIC, т.к. как только появятся эффективные алгоритмы для ИИ, тут же под него будет создан язык, который будет наиболее точно соответствовать ИИ.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38899734
mad_nazgul
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
guest_20040621Дружище, разницу между ИИ и NLP вы себе отчётливо представляете?
А вы представляете?
И для того и для другого реальных алгоритмов нет, есть какие-то "эвристические" наработки которые иногда работают (хотя чаще всего нет).
Ну и плюс куча маркетингового шума.

А по теме могу сказать, что .NET это тупое дерьмо, по сравнению с Prolog'ом.
Он даже простейшую машину вывода не может, все тупо надо программировать.
Какое ИИ на этом императивном убожестве?

<:o)
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38899761
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> Ну и плюс куча маркетингового шума.

Боюсь, мне не интересно обсуждение на таком уровне.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38899832
mad_nazgul
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
guest_20040621> Ну и плюс куча маркетингового шума.

Боюсь, мне не интересно обсуждение на таком уровне.

Слив засчитан ;-)
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38900494
guest_20040621
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
> Слив засчитан

Дружище, я не читаю бесплатных лекций дебилам. Ничего личного. Просто не интересно. О тарифах вы знаете.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38900686
mad_nazgul
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
guest_20040621> Слив засчитан

Дружище, я не читаю бесплатных лекций дебилам. Ничего личного. Просто не интересно. О тарифах вы знаете.

О сразу видно преподавателя!
Ничего не знаю, но преподаю.
А на вопросы посылаю в google. :-)
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38929892
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Ко мне в LinkedIn упала следующая вакансия:

авторИнженер-исследователь, инженер-разработчик, инженер-программист, научный сотрудник (Южная Корея) / Research (R&D) Engineer, Software Engineer / SW Developer, Programmer, Scientist (SOUTH KOREA)

Описание вакансии

Samsung Electronics Co., Ltd. приглашает на работу инженеров-исследователей (research engineer / researcher), инженеров-разработчиков (R&D engineer / development engineer / developer), инженеров-программистов (software engineer / programming engineer / programmer), а также научных сотрудников (физиков (physics-related scientist / physics engineer / physicist) и химиков (chemistry scientist / chemical engineer / chemist)) (со знанием английского языка) в исследовательские центры компании в Республике Корея.

Разработка систем на основе искусственного интеллекта, машинного обучения, интеллектуального анализа данных (Artificial Intelligence [AI], Algorithms, Smart TV, Computer Vision, Camera Vision, Pattern Recognition, Image Recognition, Motion Recognition, Content Recognition, Automatic Speech Recognition [ASR], Natural-Language-Processing (NLP), Object Analysis, Image Processing, Image Filtering, Machine Learning, Data Mining, Text-to-Speech [TTS] Systems, Machine Reasoning, Database-Related Applications, Database-Related Services, Data Retrieval, Data Analysis, Mathematical Statistics, Optimization, Neural Networks, Eco-System Development, SDK, Embedded Software, Big Data Technology, Big Data Gathering, Fault Detection and Classification [FDC], Equipment Performance Tracking [EPT], Knowledge Discovery from Manufacturing Database [Equipment Engineering System [EES], MES, SCM], Hadoop, NoSQL, MapReduce, C/C++, Java, Python, Linux, Qt)

Требования к кандидатам:

ОБРАЗОВАНИЕ: Ученая степень кандидата технических, физико-математических или химических наук / обучение в аспирантуре / высшее профессиональное образование по направлению информатика, вычислительная техника, компьютерные технологии, приборостроение, радиоэлектроника, системы управления, сетевые технологии, автоматизация, робототехника, программирование, математика, механика, оптика, физика, химия, материаловедение (либо иное подходящее техническое / естественно-научное направление)
ОПЫТ РАБОТЫ: Научно-исследовательская и опытно-конструкторская работа (НИОКР) / прикладные разработки в указанных выше областях

Место работы:

Республика Корея (Южная Корея)

Дополнительная информация: JOB.SAMSUNG.RU

Электронная почта для подачи заявки на английском языке: JobFair@SAMSUNG.COM
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38934425
AlexProOra
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Уважаемые, может кто подскажет где можно архив новостей или "русского интернета" взять для загрузки в базу и последующего анализа текстов?
Подойдет как набор файлов (txt, doc, pdf, xls....) так и формализованная информация в виде dbf (за дампы Oracle готов выслать пиво :)
Гуглил, яндексил и т.д. ничего что можно скачать в большом объеме найти не смог :(
Или тут только робота своего писать?
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38935597
АнатоЛой
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
AlexProOra, открой для себя RSS. При тру-спамовской подписке не будешь успевать выкачивать :).
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38935627
AlexProOra
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
АнатоЛой,
Спасибо! в эту сторону тоже буду смотреть.
Думал может есть где уже готовые архивы... содержимое интернет сайтов тоже хочется получить...
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38935858
АнатоЛой
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
AlexProOra, мдя... Не думал, что это "site downloder"'ы будут востребованы сегодня.
В эпоху модемных тырнетов очень популярны были проги по скачиванию сайтов целиком...
Библиотеку фантастики (600МБ) себе на работе за месяц (ибо 50kb/sec) по ночам скачать и т.п.
Поиск а-ля "site downloader freeware" и вот наглядный пример: https://www.httrack.com/...
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38943782
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Компьютерная лингвистика в компании google на translate.google.ru творит чудеса. Ну или кто-то поспособствовал. Сегодня проверил, реально так переводит )))

https://cs7061.vk.me/c621418/v621418106/19b56/RkP4fl4QOY8.jpg
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #38943868
Фотография softwarer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Leonid KudryavtsevКомпьютерная лингвистика в компании google на translate.google.ru творит чудеса. Ну или кто-то поспособствовал. Сегодня проверил, реально так переводит )))
Ох, Леонид, года три назад я попробовал там перевести одну старую духовную песню на идише. Окончательно я отпал после фразы "земля декоративного оргазма".
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #39014977
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
С Хабра: Text Analytics as Commodity: обзор приложений текстовой аналитики.
Если бы мне дали миллиард долларов на научные исследования, я бы создал большую программу в масштабе NASA по обработке естественного языка (NLP).[из Reddit AMA Майкла Джордана, 2015]. Из данной публикации вы узнаете, есть ли рынок для приложений текстовой аналитики. И не слишком ли оптимистичен заслуженный профессор М. Джордан по поводу потенциала NLP, а лучше потратить миллиард долларов на что-то другое.

Введение

Вначале определимся с терминами. Интеллектуальный анализ текста (англ., text mining) — это технологии получения структурированной информации из коллекций текстовых документов. Обычно в это понятие включают такие крупные задачи, как

категоризация текста
извлечение информации
информационный поиск.

Часто, когда говорят о применении интеллектуального анализа текста в бизнесе — текстовой аналитики (англ., text analytics) — имеют в виду не просто структурированную информацию, а т.н. углубленное понимание предмета анализа (insights), которое помогает в принятии бизнес-решений. Известный эксперт Сэт Граймс определяет текстовую аналитику как технологические и бизнес процессы применения алгоритмических подходов к обработке и извлечению информации из текста и получению глубокого понимания.

Принято считать, что формируется новый рынок когнитивно-вычислительных (cognitive computing) продуктов. По оценкам MarketsandMarkets глобальный рынок продуктов на основе обработки естественного языка должен составить $13.4 млрд. к 2020 году при росте в 18.4% по CAGR. Таким образом, сейчас этот рынок оценивается примерно в $5.8 млрд. В последние годы этот растущий рынок ознаменовался целым рядом громких сделок, вроде покупки Alchemy API компанией IBM. По другим оценкам, аналогичный рынок в Европе уже сейчас превосходит пол-миллиарда долларов и удвоится к 2019 году. Рынок Северной Америки составляет почти 40% глобального рынка текстовой аналитики и имеет оптимистичные оценки роста.

Безусловно, читатель наверняка ознакомлен с успехами платформы IBM Watson. Цель данной публикации — рассказать о других интересных и, возможно, малоизвестных приложений текстовой аналитики в таких областях, как:

управление документооборотом компании
e-commerce
бренд-менеджмент
маркетинг
конкурентная разведка
управление опытом клиента
информационная безопасность
виртуальные ассистенты и др.

По ссылке выше далее идет освещение этих приложений.
...
Рейтинг: 0 / 0
Будущее компьютерной лингвистики
    #39121163
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ABBYY Compreno добавляет интеллект в "Логику СЭД"
Компания «Логика бизнеса» представляет новое решение для сортировки поступающих электронных обращений граждан в канцелярию СЭД с помощью технологии понимания и анализа текстов на естественных языках ABBYY Compreno.

Приходящие в электронном виде обращения граждан, например, с портала госуслуг разбирают в ручном режиме сотрудники канцелярии. Если объем обращений достигает 1000 в день, такая работа, которую автоматизировать сейчас, казалось бы, нет никакой возможности, требует много времени и трудозатрат. Однако интеллектуальная технология ABBYY Compreno позволяет автоматизировать процесс обработки поступающих в организацию запросов за счет понимания и анализа смысла обращения.

Созданное специалистами «Логики бизнеса» решение на базе ABBYY Compreno определяет в потоке поступающих электронных документов их тип, используя обучающую подборку на основе общероссийского классификатора обращений или классификатора обращений организации.

Из текста обращения «добывается» значимая информация (метаданные) для последующего создания регистрационной карточки. После этого СЭД отправляет документ по маршруту, который настроен для определенной тематики, или такой маршрут можно определить самостоятельно. Сотруднику канцелярии остается только проверить корректность заполнения карточки.

Аналогичное решение создано «Логикой бизнеса» и для бумажных документов: документ сканируется, текст распознается и анализируется. Затем автоматически создается и заполняется карточка документа в системе электронного документооборота и формируется задание для исполнителя.

Новые клиенты «Логики бизнеса» смогут получить эту функциональность в рамках общей лицензии на систему электронного документооборота «Логика СЭД». Тем, кто уже эксплуатирует систему «Логика СЭД» и хочет воспользоваться новой функциональностью, необходимо приобрести лицензии на ABBYY Compreno и услугу «Логики бизнеса» по ее внедрению.
«Созданное нами решение с использованием интеллектуальной технологии ABBYY Compreno существенно оптимизирует работу с входящими обращениями, — комментирует результаты проекта по разработке директор по консалтингу и разработке компании „Логика бизнеса“ Алексей Кислицын. — В планах у нас есть еще несколько сценариев применения ABBYY Compreno в наших ЕСМ-решениях, которые позволят заказчикам использовать в своей работе самые последние достижения в области анализа и понимания смысла документов».
«Технологии интеллектуальной обработки информации позволяют решать задачи бизнеса на качественно новом уровне, повышая конкурентоспособность организаций и увеличивая отдачу от инвестиций, уже вложенных в существующие ИТ-системы, — говорит Дмитрий Шушкин, заместитель генерального директора ABBYY Россия. — Совместно с нашими заказчиками мы реализуем ряд пилотных проектов, где ABBYY Compreno используется для повышения эффективности разных бизнес-процессов. „Логика СЭД“ давно востребована бизнесом и мы надеемся, что возможность интеллектуальной обработки обращений граждан принесет заказчикам еще большую выгоду от внедрения системы».
...
Рейтинг: 0 / 0
180 сообщений из 180, показаны все 8 страниц
Форумы / Разработка информационных систем [игнор отключен] [закрыт для гостей] / Будущее компьютерной лингвистики
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]