Cross-validation for SGS

Последнее сообщение
Unknown 1652 15
Июн 14

Кто-нибудь сталкивался с подобным?

ProMan 532 11
Июн 14 #1

Unknown пишет:

Кто-нибудь сталкивался с подобным?

SGS это что? Секуеншен Гаусиан Симулайшн?

Так можно н-ное количество кригингов замутить и осреднить так попробуй проверить.

Гоша 1197 15
Июн 14 #2

Unknown пишет:

Кто-нибудь сталкивался с подобным?

А откуда ты это почерпнул в отношении SGS?

Потому как CV само по себе в отношении регрессионных моделей вполне понятная математическая штука

Unknown 1652 15
Июн 14 #3

ProMan пишет:
SGS это что? Секуеншен Гаусиан Симулайшн?

Да, это оно самое.

Гоша пишет:
А откуда ты это почерпнул в отношении SGS?

Потому как CV само по себе в отношении регрессионных моделей вполне понятная математическая штука

Принесли мне модельку на проверку, автор которой использовал CV для самопроверки. Естественно модель построена стохастикой. Меня в целом гложат сомнения в применимости CV для стохастики.

Celebrity 1678 14
Июн 14 #4

а чисто технически как это сделано?

Выкинута одна скважина, построена модель, потом другая и новая модель и тд?!

Что идет в качестве проверки? Параметры смещения, квадрата невязок или коэффициент эффективности/корреляции?

Если же речь идет про изъятие произвольного набора данных (метод складного ножа), когда комбинации могут варьироватся, то такой подход сам по себе является стохастическим.

Не пойму почему вас смущает именно SGS, если например при этом задается один и тотже seed number. Чем это будет отличаться от оценки Крикинга?!

Гоша 1197 15
Июн 14 #5

Unknown пишет:

Принесли мне модельку на проверку, автор которой использовал CV для самопроверки. Естественно модель построена стохастикой. Меня в целом гложат сомнения в применимости CV для стохастики.

Скорее всего, тогда все было почти так, как сказал celebrity. Почти, потому что когда удаляется одна точка из набора данных - это leave-one-out cross validation, а можно удалять группу из k точек (скважин). В этом случае зовется k-fold cross validation. Для моделей (не обязательно в области нефти и газа), основанных на случайных величинах, стохастических, вполне применимо. Но если скважин в модели мало, то я бы не стал так делать - уж слишком мал и ценен имеющийся объем информации по сравнению с межскважинным пространством (если даже сравнивать геологические данные с какой-нибудь выборкой медицинских данных в части покрытия пространства возможных вариантов). А если пробурено много эксплуатационных - может достаточно и детерминистической модели без осложнений?...

Unknown 1652 15
Июн 14 #6

Как это было реализовано, сказать сложно, из проекта многое удалено. Судя по всему было исключено несколько десятков скважин, пробуренных в одном году. Общее количество скважин более 800 и у меня впечатление, что CV сошлась больше из-за количества скважин, чем из-за правильности подхода.

Сомнения же относительно общей применимости CV для стохастики, основаны на том, что кросс-плот будет меняться от реализвации к реализации только из-за сида.

Гоша 1197 15
Июн 14 #7

Unknown пишет:

... CV сошлась больше из-за количества скважин, чем из-за правильности подхода.

Странно звучит "CV сошлась" - потому что это не алгоритм решения оптимизационной задачи, а просто способ тестирования модели и метод оценки средней ошибки прогнозных значений.

Unknown пишет:

Сомнения же относительно общей применимости CV для стохастики, основаны на том, что кросс-плот будет меняться от реализвации к реализации только из-за сида.

Более того, от сида зависит и то, какие именно скважины будут случайным образом исключены из обучающей выборки и переведены в тестовую. Но тем не менее, такой подход применяется часто. Потому что на обучающей выборке с ростом сложности модели средняя ошибка модели всегда уменьшается, а для тестовой выборки это не так, что позволяет количественно обосновать принцип keep it simple при большом количестве моделей.

Unknown 1652 15
Июн 14 #8

Гоша пишет:
Более того, от сида зависит и то, какие именно скважины будут случайным образом исключены из обучающей выборки и переведены в тестовую. Но тем не менее, такой подход применяется часто. Потому что на обучающей выборке с ростом сложности модели средняя ошибка модели всегда уменьшается, а для тестовой выборки это не так, что позволяет количественно обосновать принцип keep it simple при большом количестве моделей.

То есть тестовые скважины должны исключаться случайным образом и быть разными для каждой реализации?

Гоша 1197 15
Июн 14 #9

Unknown пишет:

То есть тестовые скважины должны исключаться случайным образом и быть разными для каждой реализации?

Нет, для каждой реализации, пожалуй, не нужно. Говоря про влияние "сида" на CV, я имел в виду, что сам процесс валидации должен быть случайным в смысле выбора скважин для исключения, а не направленным рукой геолога или инженера. Ну или, как сферический конь из комбинаторики, полным перебором всех возможных вариантов k из N

По сути "реализация" = "тренд" + "случайная ошибка". И я себе представляю, что тренд - это уже "тело" модели, детерминистическая часть, которое нужно "проверить на вшивость". А "случайную ошибку", добавляемую в модель для учета необъясненной трендом вариации, думаю, "валидировать" не требуется.

...Здесь я, видимо, загнул что-то сложное, пытаясь пересказать по-русски

http://en.wikipedia.org/wiki/Cross-validation_(statistics)

 

Гоша 1197 15
Июн 14 #10

Добавлю.

Если итоговая модель получается осреднением M реализаций, то процесс с учетом CV выглядит примерно так:

1 - случайным образом исключить p из N скважин

2 - построить М реализаций на оставшихся (N-p) скважинах, осреднить и получить итоговую модель

3 - сравнить модельные значения с фактическими в исключенных p скважинах

4 - повторить шаги 1-3 одинаковыми настройками и сидами моделирования свойств k- раз, чтобы получить оценку средней ошибки прогноза на "новых данных, которые модель ни разу в глаза не видела".

 

Пока все это печатал еще подумал о том, что в геологии все таки нельзя прямо спроецировать процесс CV, как он делается в чисто регрессионных моделях, где нет пространственной привязки свойств/переменных. В этом смысле при анализе временных рядов пользуются "порционным" (chunks) исключением данных - т.е. из временного ряда случайным образом исключается не одна точка, а непрерывный кусок, пробегая "скользящим окном" весь временной ряд. Таким образом, в геологической модели придется исключать скважины, либо близко пробуренные друг к другу, либо по другому "критерию близости", который тоже может вызывать споры.

 

Сухой остаток, скорее всего, имея 800 скважин, можно как-нибудь без усложнения модели и CV прожить, если очевидно, что напрямую в лоб простой реализацией CV делать в общем-то некорректно. "Лучше уж никак вместо как-нибудь", попсовый боян, но мне кажется он в тему :)

Go to top