結構前からやってる名前変えるやつ,一応インターネット上でのやり取りに対する匿名 vs 無名みたいなやつとかだったかな,なんか名前関連のやつに苛立って名前を頻繁に変えるようになって,それを自動化したみたいな経緯があるのだけれど,しかしデータソースが Wikipedia なので,どうしても人物の名前が出てしまうことがある.

前からよくないなと思ったのだけれど,ちょっと前に出た名前の本人の方がかなり気分を害されたようだったので,これはいよいよ修正しなければならないなということでガッと直した.

めちゃくちゃ素朴で,

    let path = this.tokenizer.tokenize(name)
    let humanNameCount = 0
    path.forEach((node) => {
      if (node['pos_detail_1'] === '固有名詞' && node['pos_detail_2'] === '人名') {
        humanNameCount += 1
      }
    })
    return humanNameCount / path.length >= 0.5

みたいな感じ.これで日本人の名前だとほぼ出ないはず.漫画家さんとかのペンネームだと怪しいかもしれない.

名前っぽさってなんだろう.


そういえば根本的な問題があって,UserStream もうすぐ終わるんですよね.どうしようかな.