L辞書や人名辞書などでは、大まかに言って、良く使われるものほど前に、稀なものや怪しいものは後に来るように整序しています。
L辞書
単漢字エントリ
「こう」「さん」のように、単漢字が多数並ぶエントリでは登録順は次のように決定されています。
ねん /年/念/粘/燃;燃焼/然;天然/撚;撚糸/捻;捻挫/稔;みの・る/拈;≒捻/棯;なつめ/
のう /脳;brain/能;ability/農;agri./濃;thick/膿;pus/能生;地名,新潟/納;納付/衲;衲衣/嚢;背嚢/曩;さき(に)/悩;悩殺/惱;「悩」の旧字/瑙;瑪瑙/碯;「瑙」の異体字/腦;「脳」の旧字/王;親王/皇;天皇/獰;(漢音) 獰猛(どうもう)/
- その読みと文字で、独立した語として用いられるもの(「脳」と「能」)
- 独立性は低いが、造語要素などとしてよく用いられるもの(「農」と「濃」)
- その他
- 字形によってグループ化し、グループ内では字形の類似性と頻度の双方を考慮して排列
- 全体として頻度の高い字を多く含むグループが優先
- 非一般的な読みの字は末尾の方に置く(「王」「皇」「獰」)
なお、このような単漢字エントリで、特に音読みで字を捜すのは最終手段です。その文字を含む熟語を入力して削るか、訓読みを考えて入れる方が素早く目的を達せられる場合が多いでしょう。
単漢字以外の一般的エントリ
サーチエンジンでのヒット数が大きい順番にソートした上で、適宜微調整を行っています。
- 連濁・助数詞・造語要素などは独立語よりは下げる
- 地名、固有名詞、人名はそれぞれグループ化し一般語より下げる
- 読みが複数ある語のうちの特殊な読みである、偶然その並びになりやすいなどの理由でヒット数が頻度を正確に反映していなさそうな場合は適宜下げる
- 一部の文字が共通しているなど、紛らわしい語同士はなるべく隣り合わせにした上で annotation を付ける
- 誤登録等の可能性のあるものは「※」「?」などでマークし末尾に移動する
okuri-ari エントリ
okuri-ari エントリは、最も標準的と思われる送り仮名を補った形でヒット数を調べてソートしています。同字異訓のある時は適宜割り引いています。
原形と音便形が並んでいるような場合は、原形や一般的な形の方をやや優先させています。
かn /兼;{28400}/噛;{34100}/彼;{606000}/
「兼ねる」「噛んで」「彼の」でヒット数を調べています。
「兼ねる」と「噛んで」は僅差なので、撥音便の「噛んで」を後にしています。
「彼の」は「カレの」が大半、かつ okuri が助詞なので頻度にかかわらず末尾。
人名辞書
人名辞書については、漢字表記と読み(見出しと単語)をセットにしてウェブ検索し、単純に頻度順にソートしています。概ね、よくある名前ほど先に来るようになっていますが、漢字一文字の名前の場合は大きく狂ってしまう場合もあるようです。
例外として、ひらがな・カタカナのみの名前は必ず末尾に来るようになっています。
最終更新時間:2010年12月25日 17時30分44秒