WWW.ИСХОДНИКИ.РУ cpp.sources.ru
java.sources.ru web.sources.ru soft.sources.ru
jdbc.sources.ru asp.sources.ru api.sources.ru

  Форум на исходниках
  C / C++ / Visual C++
  Пошевелим мозгой?

СПРОСИТЬ  ОТВЕТИТЬ
профайл | регистрация | faq

Автор Тема:   Пошевелим мозгой?
Emerald опубликован 03-01-2002 15:19 MSK   Click Here to See the Profile for Emerald   Click Here to Email Emerald  
Есть такая идея - не знаю как подступиться.
Значит есть текст, много (около 200 листов). В нем много нужной информации (но много и ненужной). Как мне из него (программно) выудить только то, что мне надобно, опустив всю "воду", то есть только факты, а не всё подряд.

Вот так! Даже не знаю откуда начать работать, может кто поможет? А может уже есть что подобное?

sergeyMJ опубликован 03-01-2002 15:40 MSK     Click Here to See the Profile for sergeyMJ  Click Here to Email sergeyMJ     
А как хотя-бы информация классифицирована, что это? Художественный текст, инструкция или что-то еще?
И что тебе нужно выудить ?
Emerald опубликован 03-01-2002 16:52 MSK     Click Here to See the Profile for Emerald  Click Here to Email Emerald     
Нет, чисто из текста. То есть пользователь вводит строку, например "метод сжатия Хаффмана". А программа сканирует текст и собирает всю информацию касательно метода сжатия. Причем корректно распознавая и ссылки на него - "его, неё, ...".
Xmok опубликован 03-01-2002 17:23 MSK     Click Here to See the Profile for Xmok  Click Here to Email Xmok     
Поверхностные соображения просты: в лучшем случае можно найти строчку-образец во всех падежных формах. Но никакая программа не сможет отличить "воду" от "фактов". С таким же успехом можно ПРОГРАММНО сбегать за пивом :) Более того - если в одном предложении идет "метод сжатия Хаффмана", а следующее начинается с "О нем-то мы и поговорим", то никакая программа (из существующих коммерческих образцов - точно) не может установить, что это "о нем" относится к "методу сжатия". И даже не факт, что такие "ссылки" будут находиться и внутри одного-то предложения.
Решаемость таких проблем измеряется размером и изощренностью языковой базы, которая стоит за алгортимом. Падежные формы - это пример минимальной базы. Очень минимальной. В целом же люди остаются (и ты обречен остаться) на уровне поиска "похожих" сочетаний. К "воде" и "фактам" это никакого отношения не имеет. Все видели, как работает "аннотация" в Ворде.

Грустно - но факт.
П.С. А что касается средств разработки на эту тему, то все их охраняют как зеницу ока. Freeware не факт что есть. ORFO API тоже надо искать (и то - кто бы его стал красть?). Вся надежда на подвиги одиночек.

Emerald опубликован 03-01-2002 17:29 MSK     Click Here to See the Profile for Emerald  Click Here to Email Emerald     
Ладно. все понял. Но вполне можно добиться нормальных результатов;примерно на тот же уровень что и OCR - распознавание символов.
Если сделаю - будет freeware opensource.
ADK опубликован 04-01-2002 06:28 MSK     Click Here to See the Profile for ADK  Click Here to Email ADK     
[quote]ORFO API тоже надо искать (и то - кто бы его стал красть?)[/quote]
А у меня вроде есть прибамбах к VC IDE, который использует спеллчек Ворда для проверки орфографии.
Vovochka опубликован 04-01-2002 14:28 MSK     Click Here to See the Profile for Vovochka  Click Here to Email Vovochka     
Можно подумать о конструировании нейронной сети с нечеткой логикой. Самообучающейся. Потом научить ее чо надо искать.
Flex Ferrum опубликован 04-01-2002 14:45 MSK     Click Here to See the Profile for Flex Ferrum  Click Here to Email Flex Ferrum     
Vovochka:
Нейронные сети тут не помогут (по крайней мере в том виде, в котором они существуют) - слишком многому обучать придется. Другое дело, постоить механиз анализа предложения, как это делает Word Grammar Checker - и уже на его базе (определив, где существительные, где глаголы, а где прилагательные и т. п.) строить алгоритмы.
Xmok опубликован 04-01-2002 15:03 MSK     Click Here to See the Profile for Xmok  Click Here to Email Xmok     
Да уж - нейронные сети еще никому не помогали.
Анализ предложения - да, но это очень трудоемко. (Некоторые "коллективы" над этим бьются с семидесятых годов.) В общем - смотря сколько времени хочет
Zzzaraza опубликован 04-01-2002 15:42 MSK     Click Here to See the Profile for Zzzaraza  Click Here to Email Zzzaraza     
IMHO как не крути, в текстах основная мысль зарыта радом с ключевым словом, от него и надо плясать , т.е. -N предложений, /если не начало абзаца/, найденная фраза, +N предложений (местоимения, фразы типа "рассмотренное выше" и т.п. следующие за искомой фразой до следующего подлежащего добавляют еще N1 предложений + еще N2 если существительные, встретившиеся в первом предложении встречаются в предложениях в области от -N до +N,)(N, N1, N2-целое в разумных пределах)

зы решение так сказать в лоб. еще поллитры& вспонить что за зверь такой пролог и может ещё чё-нить придет в голову :)

Gaper опубликован 04-01-2002 17:43 MSK     Click Here to See the Profile for Gaper  Click Here to Email Gaper     
Альтернативный вариант - искать не смысл, а ВОДУ. И выливать. О том, что есть вода, надо поспрашивать тех нечистоплотных бумагомарак, которую эту жидкость заливали, дабы листинг увеличить. Перенять у них методы заливки, и обратить вспять...

Сам по себе вариант бредовый, но в сочетании с поиском смысла, т.е. если его использовать для уточнения и проверки, может увеличить качественные показатели основного метода.

Просто прочитал недавно где-то, что есть слова-паразиты (а также словосочетания), которых настоящие литераторы стараются избегать... вот и постучалась в башку такая сумасбродная идейка.

DimaK опубликован 05-01-2002 10:42 MSK     Click Here to See the Profile for DimaK  Click Here to Email DimaK     
Это проблема в области Искуственного интеллекта и над ней как говорил райкин 3 института пять лет билисть (и нехе... ничего не добились)а разработки здесь все засекреченые своими силами это даже не лбом стену бить

СПРОСИТЬ  ОТВЕТИТЬ
Перейти:


E-mail | WWW.ИСХОДНИКИ.RU

Powered by: Ultimate Bulletin Board, Freeware Version 5.10a
Purchase our Licensed Version- which adds many more features!
© Infopop Corporation (formerly Madrona Park, Inc.), 1998 - 2000.