1. Architektura procesu redakcyjnego

Każda publikacja Wrzeskovale przechodzi pięcioetapowy cykl: (1) wybór tematu i pytania badawczego, (2) kwerenda literatury naukowej, (3) przygotowanie i czyszczenie danych, (4) trening i walidacja modelu, (5) wewnętrzna recenzja metodologiczna przez dwóch niezależnych analityków przed publikacją.

Ten proces wynika z naszego doświadczenia — w pierwszych miesiącach działalności publikowaliśmy raporty bez podwójnej recenzji i kilka razy okazało się, że subtelny błąd w przygotowaniu danych (look-ahead bias) zniekształcał wyniki. Od 2022 roku nie publikujemy żadnego raportu modelowego bez podpisu drugiego recenzenta.

2. Źródła danych

Korzystamy wyłącznie ze źródeł publicznie dostępnych i legalnych w jurysdykcji polskiej i europejskiej:

  • Yahoo Finance i Stooq — dane dzienne i tygodniowe z głównych giełd światowych oraz GPW. Format CSV, częstotliwość aktualizacji EOD.
  • EOD Historical Data — historia tickerów ze Stanów Zjednoczonych, Europy i Azji od 2000 roku. Komercyjna licencja redakcyjna.
  • NBP API — kursy walutowe NBP, oprocentowania referencyjne. Dane oficjalne, bezpłatne.
  • GUS (Główny Urząd Statystyczny) — dane makroekonomiczne, inflacja, zatrudnienie, wskaźniki PKB.
  • SEC EDGAR i ESMA — raporty kwartalne i roczne spółek giełdowych w USA i Europie.
  • Otwarte zbiory danych badawczych — Quandl, Kaggle, MIT Open Data, repozytoria publikacji konferencyjnych NeurIPS/ICML.

Nie korzystamy z danych zastrzeżonych prawnie, danych z insiderów rynkowych ani z niepublicznych przecieków. Każdy zestaw danych użyty w raporcie jest dokumentowany linkiem do źródła oraz opisem ewentualnych transformacji.

3. Modele uczenia maszynowego

Wykorzystujemy szeroki zakres architektur, dobierając je do specyfiki problemu. Najczęściej publikujemy analizy oparte o:

Sieci rekurencyjne (LSTM, GRU)

Klasyczna rodzina modeli do predykcji szeregów czasowych. Zaleta: dobrze rozumiana matematyka i prosta interpretacja. Wada: trudne trenowanie na bardzo długich sekwencjach (problem zanikającego gradientu).

Transformery czasowe (TFT, Informer, Autoformer)

Architektury z mechanizmem uwagi przystosowane do danych szeregowych. Pozwalają modelować długoterminowe zależności i wprowadzać kontekstowe zmienne kategoryczne (sezony, święta, dni tygodnia).

Modele dyfuzyjne i generatywne

Eksperymentalne zastosowanie w generowaniu syntetycznych ścieżek cenowych dla testów stress, uzupełnianiu brakujących danych historycznych, anonimizacji zbiorów badawczych.

Modele tabelaryczne (XGBoost, LightGBM, CatBoost)

Stosowane w klasyfikacji sygnałów na podstawie cech inżynierowanych — wskaźników technicznych, fundamentalnych, sentymentalnych. Zaleta: silna interpretowalność (SHAP, feature importance).

4. Walidacja

Każdy model przechodzi walidację typu walk-forward — sekwencyjne dzielenie zbioru na okna treningowe i walidacyjne, bez przecieku informacji z przyszłości do treningu. To jedyny rodzaj walidacji, który uznajemy za wiarygodny w kontekście szeregów czasowych finansowych.

Standardowo raportujemy: średnią dokładność out-of-sample (accuracy, F1, AUC w zależności od typu zadania), skumulowaną miarę zysku/straty (P&L) w warunkach hipotetycznych, maksymalny drawdown, wskaźnik Sharpe'a oraz Sortino. Każda metryka jest publikowana z 95-procentowym przedziałem ufności estymowanym metodą bootstrap.

Modele, dla których walidacja walk-forward daje wynik nieodróżnialny od strategii losowej (test permutacyjny, p-value > 0,05), są publikowane jako negatywne wyniki badawcze — uważamy, że mają dużą wartość edukacyjną, ponieważ pokazują, gdzie kończą się możliwości danego podejścia.

5. Ograniczenia

Świadomie informujemy czytelników, że nasze publikacje obarczone są kilkoma rodzajami ograniczeń:

  1. Symulacja vs rzeczywistość. Backtest nie uwzględnia wszystkich kosztów transakcyjnych, slippage'u na rynkach niskoturnoverowych ani efektów wpływu na cenę dużymi zleceniami.
  2. Reżim rynkowy. Modele wytrenowane w okresach stabilności mogą zawodzić podczas kryzysów płynności (lekcja z marca 2020 i marca 2023).
  3. Overfitting metodologiczny. Mimo walidacji walk-forward, wybór hiperparametrów na całym dostępnym zbiorze danych prowadzi do pewnego stopnia dopasowania metodologii do historii.
  4. Dane historyczne. GPW i mniejsze rynki europejskie mają historię krótszą niż S&P 500 — niektóre modele będą miały statystycznie ograniczoną moc dla rynku polskiego.

6. Zasady etyczne

Nie publikujemy modeli wymagających dostępu do danych niepublicznych. Nie publikujemy strategii bazujących na manipulacji rynkiem (front-running, spoofing). Nie publikujemy treści w formie przebrania marketingowego za artykułem redakcyjnym — wszystkie reklamy są jasno oznaczone.

Metodologia jest pierwszym i najważniejszym produktem dziennikarstwa danych. Bez metodologii każdy „signal" to tylko opinia sprzedawcy.

7. Aktualizacja dokumentu

Niniejsza metodologia jest aktualizowana przynajmniej raz w roku. Ostatnia rewizja: 15 marca 2026. Pełna historia zmian jest publikowana w naszym repozytorium dokumentacyjnym.