効率的に収集するには、適切な分類が重要。分類が粗いと収集が重複したりするし、分類が細かすぎると収集に時間が取られ過ぎる。
記録している情報は
メーカー(1Pon, 10mu, Carib, ,,)
品番
出演者
タイトル、タグ(初裏,中出し,アナル,,,)
配信年月日
画質(1080p, 720p, ,,,)
たいていのサイトは、メーカー、品番、出演者、タイトル、配信年月日を表示しているし、
画質はダウンロードファイルの最後についていることが多いから、これらの情報はpythonの簡単なプログラムで自動取得できる。
手入力するのはタグだけ。タグの内容はタイトルと被ることが多いのでサブタイトルのように扱って同一フィールドにしている。
FANZA(dmm)で扱っている作品はメーカー名をdmm, モザイク破壊はメーカー名をモザイク破壊、流出物はメーカー名を無修正流出としてあるので、同じ作品であっても別扱いになる。