Главная    Конференция     Алгоритм редуцирования информации при анализе вспомогательного информационного фонда
"ТРИЗ-Конференция - 2007" Список участников и тематика выступлений

АЛГОРИТМ РЕДУЦИРОВАНИЯ ИНФОРМАЦИИ ПРИ АНАЛИЗЕ ВСПОМОГАТЕЛЬНОГО ИНФОРМАЦИОННОГО ФОНДА

А.А.Кручинин, Россия, С.А.Колчанов, Россия

Андрей Александрович Кручинин, сотрудник информационного отдела НИЦ "Алгоритм", основное направление профессиональных интересов - применение вычислительной техники для обработки массивов научных и технических публикаций, информационная емкость которых слишком велика для непосредственного восприятия человеком.

Станислав Аркадьевич Колчанов, специалист по ТРИЗ 4 уровня, начальник информационного отдела НИЦ "Алгоритм". Область профессиональных интересов - информационная поддержка инновационной деятельности, бизнес-разведка по открытым источникам информации, организация научно-технической экспертизы, развитие сети экспертов. С ТРИЗ познакомился в 1992 в МУНТТР (СПб), с 1996 года работает в консультационных проектах на базе технической ТРИЗ.

Аннотация. Предлагается алгоритм анализа вспомогательного информационного фонда, реализованный с помощью автоматизированной системы PatentMiner. Целью данного алгоритма является быстрое выделение подмножеств информационного фонда по заданным критериям и их представление в удобной для человека форме. Приводится пример применения алгоритма для анализа модельной задачи. Показано, что он повышает эффективность работы за счет автоматизации выполнения вспомогательных операций, оставляя человеку содержательную часть аналитической процедуры.

Ключевые слова: проблемно-ориентированный поиск, информационный фонд, структурирование, выделение подмножеств, автоматизированная система, PatentMiner.

1. Введение

Вопросы использования вспомогательного информационного фонда неоднократно рассматривались в ТРИЗ. Так на шаге 5.2. АРИЗ предлагается использовать фонд задач-аналогов [1], в работе С.Литвина [2] предложены способы и примеры формирования такого фонда. В последнее время все большее внимание уделяется функционально-ориентированному поиску [3]. Функциональный подход позволяет рассматривать вспомогательный информационный фонд как источник задач-аналогов и решений из областей знаний, удаленных от области, в которой поставлена задача.

В наши годы в связи с развитием информационных технологий и поисковых инструментов, задача ведения вспомогательного информационного фонда все больше перекладывается на надсистему. Так, например, базы данных патентных документов, доступ и развернутый поиск по которым не составляют труда, могут использоваться как фонды с достаточно хорошо структурированной информацией.

Имеющийся опыт показывает, что количество патентных документов, относящихся к решаемой задаче, может достигать нескольких сотен или даже тысяч. Обработать их полностью за ограниченное время выполнения консультационного проекта невозможно.

В связи с этим актуальными стали создание и применение автоматизированных инструментов для быстрого структурирования вспомогательного информационного фонда. Автоматизированные системы, взаимодействующие с патентными фондами, могут при этом использоваться уже не только для функционально-ориентированного поиска, но и для выявления лидирующих областей знаний [4], построения каталога эффектов или противоречий [5], создавая "на лету" фонд задач или решений-аналогов, в зависимости от потребностей исследователя или решателя.

Одним из таких инструментов является разработанная в НИЦ "Алгоритм" система PatentMiner [6]. За 2006-2007гг. PatentMiner дополнился новыми инструментами и данная публикация иллюстрирует применение последних для структурирования множества американских патентов, выделенных решателем в качестве вспомогательного информационного фонд задачи.

2. Формирование вспомогательного информационного фонда

Допустим, в результате аналитических процедур установлено, что нас интересуют решения, предположительно лежащие в области совершенствования подгузников (diapers). Такая постановка задачи может являться результатом, например, выявления лидирующей области для функции "впитывать жидкость (быстро)" или "удерживать жидкость (длительное время)". Итак, будем искать задачи и решения-аналоги в патентах, для которых предметом защиты является diaper или его синоним napkin. Глубина поиска максимально возможная для полнотекстовых документов - год выдачи патента 1976 и позднее*.

Поисковый запрос: ACLM/(diaper$ OR napkin$) Результат: 3552 патента

Пусть на анализ вспомогательной информации отведено 3 рабочих дня по 8 часов. Тогда анализ каждого документа должен быть выполнен за 24 секунды, что нереально. Если исходить из среднего времени анализа одного документа 15 минут, то на анализ всех найденных документов потребуется 111 восьмичасовых рабочих дней, что значительно превышает допустимое время. Предлагаемый алгоритм позволяет решить задачу обработки столь внушительного массива документов в установленные сроки. Блок-схема алгоритма приводится на Рисунке 1. Опишем некоторые детали предлагаемого алгоритма.

3. Алгоритм структурирования вспомогательного информационного фонда

Шаг 1. "Вхождение в тему"

Предлагаемые действия могут быть полезны, когда выполняющий аналитическую процедуру человек не был ранее знаком с предметной областью. Если первичный "вход" в предметную область был выполнен ранее каким-либо другим способом, этот шаг алгоритма можно опустить.

Структурирование информационного фонда по годам подачи заявки на изобретение облегчает предварительное ознакомление с предметной областью и поэтому выполняется в первую очередь. Такое структурирование дает зависимость изобретательской активности от времени. Она показана на Рисунке 2 в виде гистограммы. Огибающая этой гистограммы имеет волнообразный вид, который, как известно, отображает жизненный цикл каких-то идей, относящихся к данной технической системе. Мы считаем, что для предварительного ознакомления с идеей лучше всего подходят пики ее развития. В связи с этим для предварительного ознакомления с предметной областью стоит выбирать патенты, заявка на которые была подана в 1975, 1980, 1985, 1990, 1997 и 2000 году.

Выбирая по очереди каждый из этих массивов документов, проводим автоматическое реферирование. Беглый просмотр полученных рефератов позволит достаточно быстро ознакомиться с предметной областью.

Рисунок 1. Блок-схема алгоритма редуцирования информации при анализе вспомогательного информационного фонда
Рисунок 1. Блок-схема алгоритма редуцирования информации при анализе вспомогательного информационного фонда

Шаг 2. Извлечение ключевых слов, описывающих направления деятельности изобретателей

Целью данного шага алгоритма является выделение небольшого количества крупных направлений, каждое из которых описывается небольшим количеством слов. В такой ситуации иногда бывает достаточно прочитать название патента. Если оно оказывается недостаточно информативным, можно прочитать аннотацию (Abstract) или отреферировать документ с помощью системы PatentMiner. Таким образом, вместо чтения описания изобретения размером в несколько (или даже несколько десятков) страниц для извлечения ключевых слов достаточно прочитать несколько фраз. Извлеченные на этом шаге алгоритма ключевые слова сохраняются в файлах системы PatentMiner и используются далее для того, чтобы выделить подмножества документов, относящиеся к каждому из направлений изобретательской деятельности.

Шаг 3. Структурирование по направлениям изобретательской деятельности

Структурирование по направлениям изобретательской деятельности выполняется автоматически с помощью ключевых слов, которые были предварительно сохранены в файлах. В нашем примере (см. Рисунок 3) такое структурирование привело к появлению на гистограмме не 14, а 15 столбиков. Лишний (крайний справа) столбик объединяет документы, которые не относятся ни к одному из выделенных направлений. В приведенном примере в него попало около 300 документов (менее 10% от общего количества). Мы будем считать этот результат удовлетворительным. Однако при желании можно ознакомиться с документами из этого столбика и выделить дополнительные направления, оставшиеся вне поля зрения при первоначальном ознакомлении с информационным фондом.

Предположим, что для основной задачи наибольший интерес представляет направление "Non woven fabrics", и далее будем работать только с документами, относящимися к этому направлению. Выбор интересующего направления обозначен на блок-схеме как Шаг 4.

Шаг 5 Структурирование выбранного направления изобретательской деятельности

К выбранному направлению изобретательской деятельности "Non woven fabrics" относятся около 800 документов. Для содержательного анализа человеком за приемлемое время такое количество слишком велико. По этой причине будем структурировать выбранное направление в интересах решения основной задачи. Предположим, что с этой точки зрения представляет интерес следующее:

  • Найти изобретения, скомбинированные из двух или более разнородных технических систем либо нетрадиционные области применения базовой технической системы
  • Составить таблицу технических решений

Шаг 6. Формирование образов возможных решений

Предположим, что мы сильно ограничены по времени и есть всего несколько часов на формирование идей решений. Тогда цель данного шага - найти изобретения, скомбинированные из двух или более разнородных технических систем. Для этого структурируем выбранное ранее направление по секциям международной классификации. Результат представлен на Рисунке 4. Можно видеть, что наибольшее число документов содержит секция А - HUMAN NECESSITIES. Назовем ее главной секцией. Найдем теперь документы, которые помимо главной секции попадают в какую-либо другую (вспомогательную) секцию классификатора. Результат представлен на Рисунке 5.

Выделение таких "вспомогательных" субсекций, классов или подклассов может уже само по себе подсказать идеи исследователю. В "понравившееся" подмножество документов можно заглянуть с целью изучения деталей. Так, в нашем примере во вспомогательной субсекции G0 - INSTRUMENTS, находим патент 7,176,344 Sensoring absorbing article, который объединяет diaper с измерителем его влажности. Техническое решение, описанное в найденном документе, приведено в Таблице 1.

Таблица 1. Задачи и пути их решения для направления "Non woven fabrics"
Проблема Решение Документ
enable means and methods for monitoring status, e.g., by measuring wetness or humidity, in an absorbent article after or at, e.g., an urination event, in an easily - monitored, inexpensive , and disposable way a sensoring absorbent structure, comprising at least one absorbent layer and at least one sensing device comprising a magnetoelastic film 7,176,344 Sensoring absorbing article

Шаг 7. Составление таблицы технических решений

При наличии одного-трех дней можно подойти к вопросу поиска решений более основательно и составить развернутую таблицу технических решений. Предположим, что на такую работу отведено 2 восьмичасовых рабочих дня и что обработка одно документа человеком будет занимать не более 15 минут. Тогда выделенное для этой цели подмножество патентов должно содержать около 70 документов.

Структурируем выбранное ранее направление по годам подачи заявки на изобретение. Из результата, представленного на Рисунке 6, видно, что для построения таблицы технических решений можно будет использовать изобретения, заявки на которые были поданы с 2002 по 2005 гг. (их количество составляет 76). Одно из найденных технических решений, представляющих интерес для решения основной задачи, приведено в Таблице 2.

Таблица 2. Задачи и пути их решения для направления Non woven fabrics
Проблема Решение Документ
avoid the undesirable features of uncontrolled superabsorbent expansion while efficiently absorbing fluids a new structural composite comprising integrated layers 6,664,437 Layered composites for personal care products

4. Заключение

  • Основное назначение предложенного алгоритма - быстро выделять из информационного фонда подмножества документов, с которыми целесообразно ознакомиться в первую очередь. Содержательный анализ выделенных подмножеств выполняется человеком.
  • Некоторые операции предложенного алгоритма выполняются автоматически (например, кластеризация по годам подачи заявки). Время выполнения таких операций определяется производительностью вычислительной техники и может составлять от долей секунды до нескольких десятков минут.
  • Некоторые операции предложенного алгоритма выполняются человеком (например, составление таблицы технических решений). Время выполнения таких операций определяется "человеческим фактором" и может составлять от нескольких часов до нескольких дней.
  • Применение предложенного алгоритма позволяет обработать информационный фонд такого размера, который препятствует его анализу без редуцирования информации за приемлемое время.

Рисунок 2. Изобретательская активность для вспомогательного информационного фонда в целом.
Рисунок 2. Изобретательская активность для вспомогательного информационного фонда в целом.


Рисунок 3. Подмножества информационного фонда, относящиеся к выделенным направлениям изобретательской деятельности.
Рисунок 3. Подмножества информационного фонда, относящиеся к выделенным направлениям изобретательской деятельности.


Рисунок 4. Распределение патентов по секциям международной классификации для направления "Non woven fabrics"
Рисунок 4. Распределение патентов по секциям международной классификации для направления "Non woven fabrics"



Рисунок 5. Подмножества направления "Non woven fabrics", попавшие помимо основной секции классификатора в какие-либо другие секции
Рисунок 5. Подмножества направления "Non woven fabrics", попавшие помимо основной секции классификатора в какие-либо другие секции



Рисунок 6. Изобретательская активность для направления Non woven fabrics
Рисунок 6. Изобретательская активность для направления Non woven fabrics



Литература [к началу]

1. Алгоритм решения изобретательских задач ариз-85-В часть 5.

Применение информфонда. http://www.altshuller.ru/triz/ariz85v-5.asp

2. Литвин С.С. Фонд задач-аналогов. Не похоже, но одно и то же. Журнал ТРИЗ, 95. №1, С. 47-50.

3. S.Litvin. "New TRIZ-based Tool - Function-Oriented Search". ETRIA Conference TRIZ Future 2004. November 2-5, 2004, Florence, Italy

4. Аксельрод Б.М. Проблемно-ориентированный поиск по действию с использованием патентных баз данных: новый поисково-решательный инструмент. МА ТРИЗ, Труды международной конференции "Три поколения ТРИЗ", Санкт-Петербург, 13-18 октября 2006 года.

5. М.Вербицкий. "Семантический ТРИЗ", 2005 г. - http://www.trizland.ru/trizba.php?id=186

6. М.Кручинин. Полуавтоматизированный анализ патентов с для определения тенденций развития технических систем и решения других изобретательских задач. МА ТРИЗ, Труды международной конференции "Три поколения ТРИЗ", Санкт-Петербург, 13-18 октября 2006 года.


* Существующая версия PatentMiner работает с сервером американских заявок и патентов USPTO (www.uspto.gov) [вернуться]

Главная    Конференция     Алгоритм редуцирования информации при анализе вспомогательного информационного фонда