Пошевелим мозгой? - Форум на исходниках

WWW.ИСХОДНИКИ.РУ cpp.sources.ru

java.sources.ru web.sources.ru soft.sources.ru

jdbc.sources.ru asp.sources.ru api.sources.ru

  Форум на исходниках
  C / C++ / Visual C++
  Пошевелим мозгой?
СПРОСИТЬ  ОТВЕТИТЬ
профайл | регистрация | faq

Автор Тема:   Пошевелим мозгой?

Emerald опубликован 03-01-2002 15:19 MSK
Есть такая идея - не знаю как подступиться.
Значит есть текст, много (около 200 листов). В нем много нужной информации (но много и ненужной). Как мне из него (программно) выудить только то, что мне надобно, опустив всю "воду", то есть только факты, а не всё подряд.
Вот так! Даже не знаю откуда начать работать, может кто поможет? А может уже есть что подобное?
sergeyMJ опубликован 03-01-2002 15:40 MSK
А как хотя-бы информация классифицирована, что это? Художественный текст, инструкция или что-то еще?
И что тебе нужно выудить ?
Emerald опубликован 03-01-2002 16:52 MSK
Нет, чисто из текста. То есть пользователь вводит строку, например "метод сжатия Хаффмана". А программа сканирует текст и собирает всю информацию касательно метода сжатия. Причем корректно распознавая и ссылки на него - "его, неё, ...".
Xmok опубликован 03-01-2002 17:23 MSK
Поверхностные соображения просты: в лучшем случае можно найти строчку-образец во всех падежных формах. Но никакая программа не сможет отличить "воду" от "фактов". С таким же успехом можно ПРОГРАММНО сбегать за пивом :) Более того - если в одном предложении идет "метод сжатия Хаффмана", а следующее начинается с "О нем-то мы и поговорим", то никакая программа (из существующих коммерческих образцов - точно) не может установить, что это "о нем" относится к "методу сжатия". И даже не факт, что такие "ссылки" будут находиться и внутри одного-то предложения.
Решаемость таких проблем измеряется размером и изощренностью языковой базы, которая стоит за алгортимом. Падежные формы - это пример минимальной базы. Очень минимальной. В целом же люди остаются (и ты обречен остаться) на уровне поиска "похожих" сочетаний. К "воде" и "фактам" это никакого отношения не имеет. Все видели, как работает "аннотация" в Ворде.
Грустно - но факт.
П.С. А что касается средств разработки на эту тему, то все их охраняют как зеницу ока. Freeware не факт что есть. ORFO API тоже надо искать (и то - кто бы его стал красть?). Вся надежда на подвиги одиночек.
Emerald опубликован 03-01-2002 17:29 MSK
Ладно. все понял. Но вполне можно добиться нормальных результатов;примерно на тот же уровень что и OCR - распознавание символов.
Если сделаю - будет freeware opensource.
ADK опубликован 04-01-2002 06:28 MSK
[quote]ORFO API тоже надо искать (и то - кто бы его стал красть?)[/quote]
А у меня вроде есть прибамбах к VC IDE, который использует спеллчек Ворда для проверки орфографии.
Vovochka опубликован 04-01-2002 14:28 MSK
Можно подумать о конструировании нейронной сети с нечеткой логикой. Самообучающейся. Потом научить ее чо надо искать.
Flex Ferrum опубликован 04-01-2002 14:45 MSK
Vovochka:
Нейронные сети тут не помогут (по крайней мере в том виде, в котором они существуют) - слишком многому обучать придется. Другое дело, постоить механиз анализа предложения, как это делает Word Grammar Checker - и уже на его базе (определив, где существительные, где глаголы, а где прилагательные и т. п.) строить алгоритмы.
Xmok опубликован 04-01-2002 15:03 MSK
Да уж - нейронные сети еще никому не помогали.
Анализ предложения - да, но это очень трудоемко. (Некоторые "коллективы" над этим бьются с семидесятых годов.) В общем - смотря сколько времени хочет
Zzzaraza опубликован 04-01-2002 15:42 MSK
IMHO как не крути, в текстах основная мысль зарыта радом с ключевым словом, от него и надо плясать , т.е. -N предложений, /если не начало абзаца/, найденная фраза, +N предложений (местоимения, фразы типа "рассмотренное выше" и т.п. следующие за искомой фразой до следующего подлежащего добавляют еще N1 предложений + еще N2 если существительные, встретившиеся в первом предложении встречаются в предложениях в области от -N до +N,)(N, N1, N2-целое в разумных пределах)
зы решение так сказать в лоб. еще поллитры& вспонить что за зверь такой пролог и может ещё чё-нить придет в голову :)
Gaper опубликован 04-01-2002 17:43 MSK
Альтернативный вариант - искать не смысл, а ВОДУ. И выливать. О том, что есть вода, надо поспрашивать тех нечистоплотных бумагомарак, которую эту жидкость заливали, дабы листинг увеличить. Перенять у них методы заливки, и обратить вспять...
Сам по себе вариант бредовый, но в сочетании с поиском смысла, т.е. если его использовать для уточнения и проверки, может увеличить качественные показатели основного метода.
Просто прочитал недавно где-то, что есть слова-паразиты (а также словосочетания), которых настоящие литераторы стараются избегать... вот и постучалась в башку такая сумасбродная идейка.
DimaK опубликован 05-01-2002 10:42 MSK
Это проблема в области Искуственного интеллекта и над ней как говорил райкин 3 института пять лет билисть (и нехе... ничего не добились)а разработки здесь все засекреченые своими силами это даже не лбом стену бить
СПРОСИТЬ  ОТВЕТИТЬ
Перейти:

E-mail | WWW.ИСХОДНИКИ.RU

Powered by: Ultimate Bulletin Board, Freeware Version 5.10a
Purchase our Licensed Version- which adds many more features!
© Infopop Corporation (formerly Madrona Park, Inc.), 1998 - 2000.

Автор	Тема: Пошевелим мозгой?
Emerald	опубликован 03-01-2002 15:19 MSK Есть такая идея - не знаю как подступиться. Значит есть текст, много (около 200 листов). В нем много нужной информации (но много и ненужной). Как мне из него (программно) выудить только то, что мне надобно, опустив всю "воду", то есть только факты, а не всё подряд. Вот так! Даже не знаю откуда начать работать, может кто поможет? А может уже есть что подобное?
sergeyMJ	опубликован 03-01-2002 15:40 MSK А как хотя-бы информация классифицирована, что это? Художественный текст, инструкция или что-то еще? И что тебе нужно выудить ?
Emerald	опубликован 03-01-2002 16:52 MSK Нет, чисто из текста. То есть пользователь вводит строку, например "метод сжатия Хаффмана". А программа сканирует текст и собирает всю информацию касательно метода сжатия. Причем корректно распознавая и ссылки на него - "его, неё, ...".
Xmok	опубликован 03-01-2002 17:23 MSK Поверхностные соображения просты: в лучшем случае можно найти строчку-образец во всех падежных формах. Но никакая программа не сможет отличить "воду" от "фактов". С таким же успехом можно ПРОГРАММНО сбегать за пивом :) Более того - если в одном предложении идет "метод сжатия Хаффмана", а следующее начинается с "О нем-то мы и поговорим", то никакая программа (из существующих коммерческих образцов - точно) не может установить, что это "о нем" относится к "методу сжатия". И даже не факт, что такие "ссылки" будут находиться и внутри одного-то предложения. Решаемость таких проблем измеряется размером и изощренностью языковой базы, которая стоит за алгортимом. Падежные формы - это пример минимальной базы. Очень минимальной. В целом же люди остаются (и ты обречен остаться) на уровне поиска "похожих" сочетаний. К "воде" и "фактам" это никакого отношения не имеет. Все видели, как работает "аннотация" в Ворде. Грустно - но факт. П.С. А что касается средств разработки на эту тему, то все их охраняют как зеницу ока. Freeware не факт что есть. ORFO API тоже надо искать (и то - кто бы его стал красть?). Вся надежда на подвиги одиночек.
Emerald	опубликован 03-01-2002 17:29 MSK Ладно. все понял. Но вполне можно добиться нормальных результатов;примерно на тот же уровень что и OCR - распознавание символов. Если сделаю - будет freeware opensource.
ADK	опубликован 04-01-2002 06:28 MSK [quote]ORFO API тоже надо искать (и то - кто бы его стал красть?)[/quote] А у меня вроде есть прибамбах к VC IDE, который использует спеллчек Ворда для проверки орфографии.
Vovochka	опубликован 04-01-2002 14:28 MSK Можно подумать о конструировании нейронной сети с нечеткой логикой. Самообучающейся. Потом научить ее чо надо искать.
Flex Ferrum	опубликован 04-01-2002 14:45 MSK Vovochka: Нейронные сети тут не помогут (по крайней мере в том виде, в котором они существуют) - слишком многому обучать придется. Другое дело, постоить механиз анализа предложения, как это делает Word Grammar Checker - и уже на его базе (определив, где существительные, где глаголы, а где прилагательные и т. п.) строить алгоритмы.
Xmok	опубликован 04-01-2002 15:03 MSK Да уж - нейронные сети еще никому не помогали. Анализ предложения - да, но это очень трудоемко. (Некоторые "коллективы" над этим бьются с семидесятых годов.) В общем - смотря сколько времени хочет
Zzzaraza	опубликован 04-01-2002 15:42 MSK IMHO как не крути, в текстах основная мысль зарыта радом с ключевым словом, от него и надо плясать , т.е. -N предложений, /если не начало абзаца/, найденная фраза, +N предложений (местоимения, фразы типа "рассмотренное выше" и т.п. следующие за искомой фразой до следующего подлежащего добавляют еще N1 предложений + еще N2 если существительные, встретившиеся в первом предложении встречаются в предложениях в области от -N до +N,)(N, N1, N2-целое в разумных пределах) зы решение так сказать в лоб. еще поллитры& вспонить что за зверь такой пролог и может ещё чё-нить придет в голову :)
Gaper	опубликован 04-01-2002 17:43 MSK Альтернативный вариант - искать не смысл, а ВОДУ. И выливать. О том, что есть вода, надо поспрашивать тех нечистоплотных бумагомарак, которую эту жидкость заливали, дабы листинг увеличить. Перенять у них методы заливки, и обратить вспять... Сам по себе вариант бредовый, но в сочетании с поиском смысла, т.е. если его использовать для уточнения и проверки, может увеличить качественные показатели основного метода. Просто прочитал недавно где-то, что есть слова-паразиты (а также словосочетания), которых настоящие литераторы стараются избегать... вот и постучалась в башку такая сумасбродная идейка.
DimaK	опубликован 05-01-2002 10:42 MSK Это проблема в области Искуственного интеллекта и над ней как говорил райкин 3 института пять лет билисть (и нехе... ничего не добились)а разработки здесь все засекреченые своими силами это даже не лбом стену бить