なんじゃこりゃー

俺「プロトタイプ版と比べても結構遅いんですよねー」
開発者の先生「どこが遅いか知りたいからプロファイル取って教えてくれね?」

というわけで調べてみたのだが……
ある特定の関数で処理時間の83%を占めていた。トータルで2億5000万回ほど呼ばれていた。処理時間2位の関数の実に10倍の回数。
で、該当するソースを見てみた。……なんじゃこりゃ、と思った。
#ifdefの嵐。アーキテクチャごとに個別の関数、定数を用意し、マジックナンバーも使いまくり。アーキテクチャの分け方も、AMD Quad core用、Opteron用、Core Duo用、Core2 x86用、Core2 x86_64用、といった勢い。何が何だかさっぱりだ。内部仕様まで考慮してゴリゴリチューニングしてあるとしか思えない。
どこが遅いか、なんてわかってるんじゃないですか……w
先生はスーパーコンピューティングの大家なので、このくらい当然のことなのかもしれないが、こんなソース見せられてもビビるだけだ。俺にはあんなソースは一生書けそうにない。どんだけ頭いいんだ。
俺程度じゃ所詮script kiddy留まりなのかなぁ……