MLのNLPデータセット

機械学習モデルを強化するためのトップ NLP データセット

NLPとは何ですか?

NLP (自然言語処理) は、コンピューターが人間の言語を理解するのに役立ちます。これは、コンピューターに、人間と同じようにテキストや音声を読み、理解し、応答することを教えるようなものです。

NLP で何ができるのでしょうか?

  • 乱雑なテキストを整理されたデータに変換する
  • コメントが肯定的なものか否定的なものかを理解する
  • 言語間の翻訳
  • 長いテキストの要約を作成する
  • そしてもっと多く!
  • NLP 入門:

優れた NLP システムを構築するには、システムをトレーニングするための多くの例が必要です。これは、人間が練習を重ねることでよりよく学習するのと同じです。幸いなことに、これらの例を見つけることができる無料のリソースが多数あります。 ハグ顔, KaggleGitHub

NLP 市場規模と成長:

2023 年現在、自然言語処理 (NLP) 市場の価値は約 26 億ドルです。30 年から 2023 年にかけて、年間複合成長率 (CAGR) は約 2030% と大幅に成長すると予想されています。この成長は、ヘルスケア、金融、顧客サービスなどの業界における NLP アプリケーションの需要増加によって推進されています。

適切な NLP データセットを選択するには、次の要素を考慮してください。

  • 関連性: データセットが特定のタスクまたはドメインに適合していることを確認します。
  • サイズ: データセットが大きいほど、一般的にモデルのパフォーマンスは向上しますが、サイズと品質のバランスが重要です。
  • 多様性: モデルの堅牢性を高めるために、さまざまな言語スタイルとコンテキストを持つデータセットを探します。
  • 品質: エラーが発生しないように、適切にラベル付けされた正確なデータを確認します。
  • ユーザー補助: データセットが使用可能であることを確認し、ライセンス制限を考慮してください。
  • 前処理: データセットに大幅なクリーニングまたは前処理が必要かどうかを判断します。
  • コミュニティ支援: 人気のあるデータセットには、より多くのリソースとコミュニティのサポートがあることが多く、役立つことがあります。

これらの要素を評価することで、プロジェクトのニーズに最適なデータセットを選択できます。

NLP の必見オープンデータセット トップ 33

  • UCIのスパムベース (リンク)

    Hewlett-Packard Labsで作成されたSpambaseには、パーソナライズされたスパムフィルターの開発を目的とした、ユーザーによるスパムメールのコレクションがあります。 電子メールメッセージからの4600以上の観測があり、そのうち1820近くがスパムです。

  • エンロンデータセット (リンク)

    エンロンのデータセットには、機械学習モデルをトレーニングするために一般に公開されている匿名化された「実際の」電子メールの膨大なコレクションがあります。 150人以上のユーザー、主にエンロンの上級管理職からのXNUMX万通以上の電子メールを誇っています。 このデータセットは、構造化形式と非構造化形式の両方で使用できます。 非構造化データを整えるには、データ処理技術を適用する必要があります。

  • レコメンダーシステムデータセット (リンク)

    レコメンダーシステムデータセットは、次のようなさまざまな機能を含むさまざまなデータセットの膨大なコレクションです。

    • 製品レビュー
    • 星による評価
    • フィットネス追跡
    • 曲データ
    • ソーシャルネットワーク
    • タイムスタンプ
    • ユーザー/アイテムの相互作用
    • GPSデータ
  • ペンツリーバンク (リンク)

    ウォール ストリート ジャーナルのこのコーパスは、シーケンス ラベリング モデルのテストによく使用されます。

  • NLTK (リンク)

    この Python ライブラリは、NLP 用の 100 を超えるコーパスおよび語彙リソースへのアクセスを提供します。これには、図書館を使用するためのトレーニング コースである NLTK ブックも含まれています。

  • 普遍的な依存関係 (リンク)

    UD は、100 を超える言語のリソース、200 のツリーバンク、300 を超えるコミュニティ メンバーからのサポートを利用して、文法に注釈を付ける一貫した方法を提供します。

感情分析

  • 映画と金融のための辞書 (リンク)

    感情分析
    Dictionaries for Movies and Financeデータセットは、Financeフィリングと映画レビューの正または負の極性のドメイン固有の辞書を提供します。 これらの辞書は、IMDbおよびUSForm-8の詰め物から引用されています。

  • 感情140 (リンク)

    Sentiment 140には、ツイートの日付、極性、テキスト、ユーザー名、ID、クエリの160,000つの異なるフィールドに分類されたさまざまな絵文字を含む6を超えるツイートがあります。 このデータセットを使用すると、Twitterのアクティビティに基づいて、ブランド、製品、さらにはトピックの感情を見つけることができます。 このデータセットは、他の人間が注釈を付けたツイートとは異なり、自動的に作成されるため、ポジティブな感情とネガティブな感情を持つツイートを好ましくないものとして分類します。

  • マルチドメイン感情データセット (リンク)

    このマルチドメイン感情データセットは、さまざまな製品のAmazonレビューのリポジトリです。 書籍などの一部の製品カテゴリでは、レビューが数千に達するものもあれば、数百のレビューしかないものもあります。 さらに、星評価のあるレビューはバイナリラベルに変換できます。

  • スタンフォードセンチメントツリーバンク (リンク)

    Rotten Tomatoes のこの NLP データセットには、より長いフレーズとより詳細なテキストの例が含まれています。

  • ブログ著者コーパス (リンク)

    このコレクションには約 1.4 万語のブログ投稿が含まれており、各ブログは個別のデータセットです。

  • OpinRank データセット (リンク)

    エドマンズとトリップアドバイザーからの 300,000 件のレビューが、車種別、旅行先別、ホテル別にまとめられています。

テキスト

  • WikiQAコーパス (リンク)

    オープンドメインの質問と回答の調査を支援するために作成されたWiKiQAコーパスは、公開されている中で最も広範なデータセットの3000つです。 Bing検索エンジンのクエリログからコンパイルされ、質問と回答のペアが付属しています。 1500以上の質問とXNUMXのラベル付き回答文があります。

  • 訴訟報告データセット (リンク)

    Legal Case Reportsデータセットには、4000の法的ケースのコレクションがあり、自動テキスト要約と引用分析のトレーニングに使用できます。 各ドキュメント、キャッチフレーズ、引用クラス、引用キャッチフレーズなどが使用されます。

  • 危険 (リンク)

    Jeopardyデータセットは、Redditユーザーが集めた人気のクイズテレビ番組で取り上げられた200,000を超える質問のコレクションです。 各データポイントは、放送日、エピソード番号、値、ラウンド、および質問/回答によって分類されます。

  • 20 のニュースグループ (リンク)

    20,000 件のドキュメントのコレクションには、宗教から人気スポーツまでさまざまなトピックを詳述する 20 のニュースグループと主題が含まれています。

  • ロイターニュースデータセット (リンク)

    このデータセットは 1987 年に初めて登場し、機械学習の目的でラベル付け、インデックス付け、コンパイルされています。

  • arXivの (リンク)

    この実質的な 270 GB データセットには、すべての arXiv 研究論文の完全なテキストが含まれています。

  • 欧州議会議事録パラレルコーパス (リンク)

    国会議事録からの文章ペアには、機械学習コーパスとしてはあまり一般的ではない言語もいくつか含まれており、21 のヨーロッパ言語のエントリが含まれています。

  • XNUMX億ワードのベンチマーク (リンク)

    WMT 2011 News Crawl から派生したこの言語モデリング データセットには、革新的な言語モデリング手法をテストするための約 XNUMX 億語が含まれています。

オーディオスピーチ

  • 音声ウィキペディアコーパス (リンク)

    音声スピーチ このデータセットは、英語を超えたいと考えているすべての人に最適です。 このデータセットには、オランダ語、ドイツ語、英語で話された記事のコレクションが含まれています。 さまざまなトピックとスピーカーセットが数百時間に渡って実行されています。

  • 2000HUB5英語 (リンク)

    2000 HUB5英語データセットには、英語の40の電話会話トランスクリプトがあります。 データは米国国立標準技術研究所によって提供され、その主な焦点は会話音声の認識と音声のテキストへの変換にあります。

  • Libriスピーチ (リンク)

    LibriSpeechデータセットは、約1000時間の英語のスピーチを収集し、トピックごとにオーディオブックの章に適切にセグメント化したものであり、自然言語処理に最適なツールです。

  • 無料の音声数字データセット (リンク)

    この NLP データセットには、英語で数字を発音した録音が 1,500 件以上含まれています。

  • M-AI Labs 音声データセット (リンク)

    このデータセットには、複数の言語を網羅し、男性、女性、混合音声に分類された、約 1,000 時間の音声とその書き起こしが含まれています。

  • 雑音のある音声データベース (リンク)

    このデータセットには、音声強化ソフトウェアの開発を目的とした、ノイズの多い音声とクリーンな音声の並列録音が含まれていますが、困難な状況での音声のトレーニングにも役立ちます。

レビュー

  • Yelpレビュー (リンク)

    Yelpデータセットには、8.5以上の企業の約160,000万件のレビュー、そのレビュー、およびユーザーデータの膨大なコレクションがあります。 レビューは、感情分析でモデルをトレーニングするために使用できます。 さらに、このデータセットには、200,000つの大都市圏をカバーするXNUMX枚以上の写真も含まれています。

  • IMDBレビュー (リンク)

    IMDBレビューは、50万本以上の映画のキャスト情報、評価、説明、ジャンルを含む最も人気のあるデータセットのXNUMXつです。 このデータセットは、機械学習モデルのテストとトレーニングに使用できます。

  • Amazonのレビューと評価のデータセット (リンク)

    Amazonのレビューと評価のデータセットには、1996年から2014年に収集されたAmazonのさまざまな製品のメタデータとレビューの貴重なコレクション(約142.8億XNUMX万件のレコード)が含まれています。 メタデータには価格、製品の説明、ブランド、カテゴリなどが含まれ、レビューにはテキストの品質、テキストの有用性、評価などが含まれます。

質問と回答

  • スタンフォードの質問と回答のデータセット (SQuAD) (リンク)

    この読解データセットには、回答可能な質問が 100,000 件、回答不能の質問が 50,000 件あり、すべて Wikipedia クラウド ワーカーによって作成されました。

  • 自然な質問 (リンク)

    このトレーニング セットには 300,000 を超えるトレーニング サンプル、7,800 の開発サンプル、7,800 のテスト サンプルが含まれており、それぞれに Google クエリと一致する Wikipedia ページが含まれています。

  • トリビアQA (リンク)

    この挑戦的な質問セットには、人間が検証したサブセットと機械が生成したサブセットの両方を含む 950,000 の QA ペアが含まれています。

  • CLEVR (構成言語と初歩的な視覚的推論) (リンク)

    この視覚的な質問応答データセットには、3D レンダリングされたオブジェクトと、視覚的なシーンに関する詳細を含む数千の質問が含まれています。

では、機械学習モデルをトレーニングするためにどのデータセットを選択しましたか?

私たちが行くにつれて、私たちはあなたに プロのヒント。

必要に応じてNLPデータセットを選択する前に、必ずREADMEファイルをよく調べてください。 データセットには、データセットのコンテンツ、データが分類されたさまざまなパラメータ、データセットの考えられるユースケースなど、必要になる可能性のあるすべての情報が含まれます。

構築するモデルに関係なく、機械を私たちの生活にもっと密接に、本質的に統合するというエキサイティングな展望があります。NLP により、ビジネス、映画、音声認識、金融などの可能性が何倍にも広がります。

社会シェア