いったい三県調査から何が言えるのか¶

三県調査では4365人の甲状腺検査を行い、ひとりの甲状腺癌が発見されました。その事実から何が言えるのかを考えます。なお、僕は三県調査には倫理的問題があると考えていますが、ここではその問題は脇に置きます。

三県調査から確率を計算するのは筋が悪い¶

三県調査で発見された癌は「ひとり」です。これから癌の自然発生率を計算するのはひどく筋の悪い考え方です。あまりにも統計誤差が大きくなりすぎるからですし、それをどうしたいのかもよくわからないからです。またこの先の計算を見ればわかるように、「ふたり発見される確率」や「三人発見される確率」も考えるべきなのですが、なにしろ三県調査は一度しか行われていないので、計算しようがありません。そこで、ここではその計算は行いません。

ふたつの仮説を考える¶

子どもの甲状腺癌の自然発生率に関して、大きくふたつの仮説があります。ひとつは「自然発生率は100万人あたり数人である」というもの。これは実際に毎年発見される甲状腺癌の数に基づいています。津田敏秀グループの論文では「100万人あたり3人」という数を採用しています。ここでは「100万人あたり5人」としておきましょう。これが仮説Aです。もうひとつは「自然発生率は福島の甲状腺検査での発見率と同程度である」というものです。福島では37万人ほどの甲状腺を調べ、現時点までに200人ほどの甲状腺癌が発見されています。ただし、すでに三巡の検査が行われており、そのすべてを三県調査と比較していいかどうかはよくわかりません。ちなみに最初の先行検査では「悪性または悪性疑い」が116人でした。とりあえずここでは「40万人あたり100人から200人程度」と幅を持たせておきます。これが仮説Bです。

ふたつの仮説を三県調査と比較する¶

仮説AとBを仮定して、それぞれ三県調査の人数なら何人の甲状腺癌が発見されると予想されるかを考えることにします。

In [9]:
using Distributions
using PyPlot

仮説AとBにもとづく、甲状腺癌発見確率¶

仮説AでもBでも自然発生率は低いのでポアソン分布で考えればいいのですが、そのもとになる二項分布で計算しても計算時間がかかるわけではありませんし、二項分布にしておきます。ポアソンでも結果は同じです。

次のグラフは仮説AとB(発生率100/40万と200/40万のふた通りを考えます)を4365人に当てはめたときに、癌が発見される確率分布です。横軸に発見される人数、縦軸にそれぞれの確率を取りました。見て分かるように、仮説Bのほうでは発見数0,1,2,3,4くらいまではそれなりに大きな確率を持ちます。

In [27]:
plot(pdf(Binomial(4365,1/4000),0:5),"o-",label="P=100/400000");
plot(pdf(Binomial(4365,2/4000),0:5),"o-",label="P=200/400000");
plot(pdf(Binomial(4365,5/1000000),0:5),"o-",label="P=5/1000000");
xlabel("Number of persons"); ylabel("Probability")
title("Probability of finding thyroid cancers in 4365 persons");
legend();
savefig("thyroid.png")
In [51]:
pdf(Binomial(4365,5/1000000),0:1)
Out[51]:
2-element Array{Float64,1}:
 0.978411 
 0.0213539
In [53]:
pdf(Binomial(4365,100/400000),0),pdf(Binomial(4365,200/400000),0)
Out[53]:
(0.3357506763993247, 0.11269775176935601)

解釈¶

仮説Aでは「ひとりも発見されない確率」が98%、「ひとり発見される確率」が2%なので、この仮説を採用すると三県調査の結果である「ひとり」は極めて稀なできごとであることになります。したがって、「仮説Aは三県調査と整合しない」と結論づけていいでしょう。

仮説Bのほうはどうか。このグラフを見ると「ひとりだけ発見される確率」を考えてもしょうがないことがわかります。考えるべきは「ゼロかゼロでないか」です。すると、「ひとりも発見されない確率」は11%から34%程度、したがって「ひとり以上発見される確率」は66%から89%となります。これは三県調査の結果とよく整合します。さらに、いちばん確率が高いのは「ひとり」から「ふたり」ですから、その点でも三県調査と整合します。繰り返しになりますが、この問題で注意したいのは「ちょうどひとり」の確率を出しても仕方ないことです。発見数が0でも1でも2でも、なんなら3でも仮説Bとは整合するのです。発見数0の可能性は大きくないとはいえ、10%以上の確率があります。

ただし、発見数が0だったなら仮説Aとも整合します。今の場合にはひとり発見されたことによって、仮説Aは正しくないことがわかり、AかBかの二択だとすればBを選ぶべきだということがわかります。

In [50]:
f(x)=pdf(Binomial(4365,x/1000000),0);
g(x)=sum(pdf(Binomial(4365,x/1000000),1:50));
h(x)=pdf(Binomial(4365,x/1000000),1);j(x)=pdf(Binomial(4365,x/1000000),2);
x=linspace(0,600,100);
y=f.(x); z=g.(x); u=h.(x); v=j.(x);
plot(x,y,label=latexstring("\$P(n=0)\$"));plot(x,z,label=latexstring("\$P(n>0)\$"));
plot(x,u,label=latexstring("\$P(n=1)\$"));plot(x,v,label=latexstring("\$P(n=2)\$"));
xlabel("Probability of occurence (persons in 1000000)"); ylabel(latexstring("P"));
title("Probability of finding thyroid cancers in 4365 persons")
legend()
savefig("thyroid2.png")

確率を変えてみる¶

上のグラフは横軸に「自然発生率」をとって(100万人当たりの人数)、三県調査の人数で$n$人の甲状腺癌が発見される確率をプロットしたものです。$n=0,1,2$と$n>0$を描きました。分かるように、この計算をしたところで、それほど細かい話はできないのです。かなり広い範囲で三県調査と整合します。上で仮説Aを排除できたのは、Aの確率が極端に低いからです。そうでないなら、100万人中100人でも600人でも三県調査と矛盾しません。三県調査と比較して言えることは多くありません。ただ、「福島での発見率が自然発生率に近いと考えても矛盾しない」ということです。仮説Aははっきり排除されると言っていいでしょう。ざっと見て、自然発生率は100万人中100人以上はあるのでしょう。ちなみに、さらに発生率が高くなると今度は「ひとりでは少ない」という状況になります。それはそれで三県調査と整合しないのですが、今の状況では「福島での発見率は三県調査とよく整合する」と言ってかまいません

結論¶

ここまでで言ってもいいことはふたつです。(1)「自然発生率は100万人に数人程度」という説は三県調査によって否定される。(2)「福島での発見率が自然発生率程度」という説は三県調査とよく整合する。

当然ですが「被曝影響で発生率が少し増えているかどうか」などは議論できません。

(2018/1/18 菊池誠)

In [ ]: